論文の概要: Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes
- arxiv url: http://arxiv.org/abs/2508.05469v2
- Date: Thu, 21 Aug 2025 17:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.244576
- Title: Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes
- Title(参考訳): 情報ステップ・バイ・ステップで測ろう: LLMによるウイルス以外の評価
- Authors: Zachary Robertson, Sanmi Koyejo,
- Abstract要約: 戦略ゲームと情報損失の関連性を利用して, 根拠のないAIシステムの堅牢性について検討する。
我々は,情報理論のメカニズムが対向境界に抵抗するかを解析し,有限サンプル操作を拡張して,有界f-分岐系が攻撃下で維持されることを示す。
- 参考スコア(独自算出の注目度): 14.371259136517802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study evaluation of AI systems without ground truth by exploiting a link between strategic gaming and information loss. We analyze which information-theoretic mechanisms resist adversarial manipulation, extending finite-sample bounds to show that bounded f-divergences (e.g., total variation distance) maintain polynomial guarantees under attacks while unbounded measures (e.g., KL divergence) degrade exponentially. To implement these mechanisms, we model the overseer as an agent and characterize incentive-compatible scoring rules as f-mutual information objectives. Under adversarial attacks, TVD-MI maintains effectiveness (area under curve 0.70-0.77) while traditional judge queries are near change (AUC $\approx$ 0.50), demonstrating that querying the same LLM for information relationships rather than quality judgments provides both theoretical and practical robustness. The mechanisms decompose pairwise evaluations into reliable item-level quality scores without ground truth, addressing a key limitation of traditional peer prediction. We release preregistration and code.
- Abstract(参考訳): 戦略ゲームと情報損失の関連性を利用して, 根拠のないAIシステムの評価について検討した。
本研究では,非有界測度(例えばKL偏差)が指数関数的に低下するのに対して,有界f偏差(eg,全変動距離)が攻撃下で多項式保証を維持することを示す。
これらのメカニズムを実装するために,教師をエージェントとしてモデル化し,インセンティブに適合するスコアリングルールをf-ミューチュアル情報目的として特徴付ける。
敵の攻撃下では、TVD-MIは効果(曲線0.70-0.77の領域)を維持し、従来の判断クエリは変化に近い(AUC $\approx$ 0.50)。
このメカニズムは、従来のピア予測の鍵となる限界に対処するため、真理を示さずに、ペアワイズ評価を信頼性の高いアイテムレベルの品質スコアに分解する。
事前登録とコードをリリースします。
関連論文リスト
- Incentivizing Truthful Language Models via Peer Elicitation Games [10.530016288072506]
大きな言語モデル(LLM)は強力な生成能力を示しているが、矛盾や幻覚の傾向が強い。
我々は,異なるベースモデルからインスタンス化されたジェネレータと複数の識別器を含むピア・エリケーション機構を通じて,LPMを整列させる学習自由ゲーム理論フレームワークであるPeer Elicitation Games (PEG)を紹介した。
論文 参考訳(メタデータ) (2025-05-19T18:16:58Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Self-Supervised Inference of Agents in Trustless Environments [44.99833362998488]
本稿では,エージェントがSwarmを形成し,高品質な応答を効果的に生成する手法を提案する。
これはデータ推論とランク付けが可能なエージェントを活用することで実現される。
我々のアプローチは、125ミリ秒未満の検証レイテンシに達する他の信頼できない推論戦略よりも、桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2024-09-12T20:32:07Z) - In Search of Lost Online Test-time Adaptation: A Survey [40.68806005826287]
本稿では,オンラインテスト時間適応(OTTA)に関する総合的な調査を紹介する。
我々はOTTAテクニックを3つの主要なカテゴリに分類し、それらをモダンなバックボーンであるビジョントランスフォーマー(ViT)を用いてベンチマークする。
以上の結果から,トランスフォーマーは多彩なドメインシフトに対するレジリエンスを高めていることが明らかとなった。
論文 参考訳(メタデータ) (2023-10-31T05:47:33Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts
for Zero-Shot Dialogue State Tracking [83.40120598637665]
対話状態追跡(DST)のためのゼロショット転送学習は、ドメイン内のデータを収集するコストを伴わずに、様々なタスク指向の対話ドメインを扱うのに役立つ。
既存の研究は主に一般化を強化するために、一般的なデータまたはモデルレベルの拡張方法を研究する。
我々は、見られているデータのセマンティクスを明示的に切り離す、単純で効果的な「分割、征服、結合」ソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T08:21:20Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Controllable Guarantees for Fair Outcomes via Contrastive Information
Estimation [32.37031528767224]
トレーニングデータセットにおけるバイアスの制御は、下流のアプリケーションで異なるグループ間で平等に扱われることを保証するために不可欠である。
対比情報推定器に基づく相互情報によるパリティ制御の効果的な方法を示す。
uci成人および遺産健康データセットに対する我々のアプローチをテストし、このアプローチが所望のパリティ閾値にまたがってより有益な表現を提供することを実証する。
論文 参考訳(メタデータ) (2021-01-11T18:57:33Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Improving LIME Robustness with Smarter Locality Sampling [0.0]
我々は、よりリアルな合成データをサンプリングするために、生成的敵ネットワークをトレーニングすることで、LIMEをより堅牢にすることを提案する。
実験では, 実世界の3つのデータセットにまたがって, 偏りのある, 逆向きな行動を検出する精度が向上することを示した。
これは、いくつかのケースでは、トップ1の精度で99.94%まで、同等な説明品質を維持しながら達成される。
論文 参考訳(メタデータ) (2020-06-22T14:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。