論文の概要: Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations
- arxiv url: http://arxiv.org/abs/2601.22548v2
- Date: Tue, 03 Feb 2026 21:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.609412
- Title: Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations
- Title(参考訳): LLM評価者は本当にナルシシストなのか? 自己選好評価の正しさ
- Authors: Dani Roytburg, Matthew Bozoukov, Matthew Nguyen, Mackenzie Puig-Hall, Narmeen Oozeer,
- Abstract要約: 審査員が不正に完了したクエリに応答すると,評価者が自己優先の判断を下す可能性があることを示す。
評価基準(Evaluator Quality Baseline)を導入し,審査員が不正に投票した確率と,別のモデルから不正な反応を投票した確率とを比較した。
- 参考スコア(独自算出の注目度): 3.262230127283452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown that large language models (LLMs) favor their own outputs when acting as judges, undermining the integrity of automated post-training and evaluation workflows. However, it is difficult to disentangle which evaluation biases are explained by narcissism versus general experimental confounds, distorting measurements of self-preference bias. We discover a core methodological confound which could reduce measurement error by 89.6%. Specifically, LLM evaluators may deliver self-preferring verdicts when the judge responds to queries which they completed incorrectly themselves; this would be true regardless of whether one of their responses is their own. To decouple self-preference signals from noisy outputs on hard problems, we introduce an Evaluator Quality Baseline, which compares the probability that a judge incorrectly votes for itself against the probability that it votes for an incorrect response from another model. Evaluating this simple baseline on 37,448 queries, only 51% of initial findings retain statistical significance. Finally, we turn towards characterizing the entropy of "easy" versus "hard" evaluation votes from LLM judges. Our corrective baseline enables future research on self-preference by eliminating noisy data from potential solutions. More widely, this work contributes to the growing body of work on cataloging and isolating judge-bias effects.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)は、審査員として行動する際に独自のアウトプットを好んでおり、自動トレーニングと評価ワークフローの整合性を損なうことが示されている。
しかし、自己選好バイアスの測定を歪めながら、自己評価バイアスがナルシシズムによって説明されるかは、一般的な実験的見地から判断することは困難である。
測定誤差を89.6%削減できる中核的な方法論的欠点を発見した。
特に、LCM評価者は、裁判官が不正に完了したクエリに応答したとき、自己優先の判断を下すことができる。
難題における自己選好信号とノイズ出力とを分離するために,判断者が不正に投票する確率と,他のモデルから不正な応答を投票する確率とを比較した評価器品質基準を導入する。
37,448のクエリでこの単純なベースラインを評価すると、最初の発見の51%だけが統計的に重要である。
最終的に、LLM審査員による「簡単」と「ハード」の評価票のエントロピーを特徴づける方向に向く。
我々の補正基準は、潜在的な解決策からノイズの多いデータを排除し、将来の自己選好の研究を可能にする。
より広範に、この研究は、審査バイアス効果のカタログ化と分離に関する研究の活発化に寄与している。
関連論文リスト
- Mitigating Self-Preference by Authorship Obfuscation [7.267505038291745]
言語モデル(LM)判定器は、LM出力の品質を評価するために広く使われている。
多くの利点があるにもかかわらず、LMの審査員は評価において自身の整合性を損なう可能性のあるバイアスについて示している。
LM審査員は、他のLMや人間よりも独自の回答を好む。
論文 参考訳(メタデータ) (2025-12-05T02:36:13Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge [17.40713507922006]
大規模言語モデル(LLM)は、他の出力の迅速かつ信頼性の高い評価を提供する裁判官として機能する。
LLMは、自己バイアス(self-bias)として知られる、過度に好ましい評価を自身のアウトプットに体系的に割り当てる。
本稿では,自己バイアスを特定・推定できる仮定を明示的に定式化する統計的枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-08T21:22:12Z) - Beyond the Surface: Measuring Self-Preference in LLM Judgments [35.66285592603435]
大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
論文 参考訳(メタデータ) (2025-06-03T08:12:47Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Do LLM Evaluators Prefer Themselves for a Reason? [23.007963281858792]
大規模言語モデル(LLM)は、ベンチマーク、報酬モデリング、自己修正といったアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己参照は有害か、それとも、より強力なモデルの真に高品質な出力を単純に反映しているか?
論文 参考訳(メタデータ) (2025-04-04T18:09:23Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。