論文の概要: Truthfulness Despite Weak Supervision: Evaluating and Training LLMs Using Peer Prediction
- arxiv url: http://arxiv.org/abs/2601.20299v1
- Date: Wed, 28 Jan 2026 06:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.798475
- Title: Truthfulness Despite Weak Supervision: Evaluating and Training LLMs Using Peer Prediction
- Title(参考訳): 弱視にもかかわらず真実性:ピア予測を用いたLCMの評価と訓練
- Authors: Tianyi Alex Qiu, Micah Carroll, Cameron Allen,
- Abstract要約: 本稿では,モデル評価とポストトレーニングのためのピア予測手法を提案する。
真面目で情報的な答えを欺いたり、非形式的な答えに報いる。
ピア予測に基づく報奨による8Bモデルのトレーニングは、以前の悪意のある微調整による真偽の低下の大部分を回復させることを示す。
- 参考スコア(独自算出の注目度): 5.366560952801833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation and post-training of large language models (LLMs) rely on supervision, but strong supervision for difficult tasks is often unavailable, especially when evaluating frontier models. In such cases, models are demonstrated to exploit evaluations built on such imperfect supervision, leading to deceptive results. However, underutilized in LLM research, a wealth of mechanism design research focuses on game-theoretic incentive compatibility, i.e., eliciting honest and informative answers with weak supervision. Drawing from this literature, we introduce the peer prediction method for model evaluation and post-training. It rewards honest and informative answers over deceptive and uninformative ones, using a metric based on mutual predictability and without requiring ground truth labels. We demonstrate the method's effectiveness and resistance to deception, with both theoretical guarantees and empirical validation on models with up to 405B parameters. We show that training an 8B model with peer prediction-based reward recovers most of the drop in truthfulness due to prior malicious finetuning, even when the reward is produced by a 0.135B language model with no finetuning. On the evaluation front, in contrast to LLM-as-a-Judge which requires strong and trusted judges, we discover an inverse scaling property in peer prediction, where, surprisingly, resistance to deception is strengthened as the capability gap between the experts and participants widens, enabling reliable evaluation of strong models with weak supervision. In particular, LLM-as-a-Judge become worse than random guess when facing deceptive models 5-20x the judge's size, while peer prediction thrives when such gaps are large, including in cases with over 100x size difference.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価と後訓練は、監督に依存しているが、特にフロンティアモデルを評価する際には、困難なタスクに対する強力な監督は利用できないことが多い。
このようなケースでは、モデルがこのような不完全な監視に基づく評価を活用できることが示され、虚偽の結果が導かれる。
しかし、LLM研究では利用されていないが、豊富なメカニズム設計研究はゲーム理論的なインセンティブの適合性、すなわち、監督の弱い正直で情報的な答えを引き出すことに焦点を当てている。
本稿では,モデル評価とポストトレーニングのためのピア予測手法を提案する。
これは、相互予測可能性に基づく計量を用いて、根拠となる真理ラベルを必要とせず、虚偽で非形式的な答えよりも正直で情報的な答えを報いる。
最大405Bパラメータを持つモデルに対して,理論的保証と実証的検証を併用して,提案手法の有効性と偽造に対する抵抗性を実証した。
ピア予測に基づく報奨による8Bモデルのトレーニングでは,報奨が0.135B言語モデルで作成されても,事前の悪質な微調整による真偽の低下の大部分を回復することを示した。
評価面では,強く信頼された判断を必要とするLDM-as-a-Judgeとは対照的に,驚くほど,専門家と参加者の能力格差が拡大するにつれて,偽装に対する抵抗が強化され,信頼性の高いモデルの評価が可能となるような,ピア予測における逆スケーリング特性が発見された。
特に、LLM-as-a-Judgeは、裁判官の5~20倍の大きさの偽装モデルに直面した場合には、ランダムな推測よりも悪くなる一方、そのようなギャップが大きい場合には、100倍以上の差がある場合など、ピア予測が繁栄する。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary Classifiers via Membership Inference Attacks [17.243744418309593]
本研究では,公平度差分結果に基づく公平度向上モデルに対する効率的なMIA手法を提案する。
また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
論文 参考訳(メタデータ) (2023-11-07T10:28:17Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。