論文の概要: Beyond the Surface: Measuring Self-Preference in LLM Judgments
- arxiv url: http://arxiv.org/abs/2506.02592v1
- Date: Tue, 03 Jun 2025 08:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.475575
- Title: Beyond the Surface: Measuring Self-Preference in LLM Judgments
- Title(参考訳): 表面を超えて: LLMの判断における自己選好の測定
- Authors: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin,
- Abstract要約: 大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
- 参考スコア(独自算出の注目度): 35.66285592603435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示しており、それは、他のモデルによって生成されるものよりも、彼ら自身の反応を好む傾向にあることを示している。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
しかし、このアプローチは自己参照バイアスと応答品質を混同し、判断モデルからの高品質な応答は、バイアスがなくても正のスコア差をもたらす可能性がある。
そこで本研究では,実際の応答品質のプロキシとして金判定を導入し,自己選好バイアスを判断モデルが割り当てたスコアとそれに対応する金判定との差として評価するDBGスコアを提案する。
金の判定は真の応答品質を反映するため、DBGスコアは応答品質がバイアス測定に与える影響を緩和する。
DBGスコアを用いて、様々なバージョン、サイズ、推論能力のLSMにわたる自己選好バイアスを評価するための総合的な実験を行う。
さらに,自己選好バイアスの緩和に寄与する2つの要因について検討する。
最後に、注意に基づく視点から、自己参照バイアスの潜在的なメカニズムについて考察する。
私たちのコードとデータはhttps://github.com/zhiyuanc2001/self-preference.comで公開されています。
関連論文リスト
- Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations [3.262230127283452]
審査員が不正に完了したクエリに応答すると,評価者が自己優先の判断を下す可能性があることを示す。
評価基準(Evaluator Quality Baseline)を導入し,審査員が不正に投票した確率と,別のモデルから不正な反応を投票した確率とを比較した。
論文 参考訳(メタデータ) (2026-01-30T04:38:18Z) - Mitigating Self-Preference by Authorship Obfuscation [7.267505038291745]
言語モデル(LM)判定器は、LM出力の品質を評価するために広く使われている。
多くの利点があるにもかかわらず、LMの審査員は評価において自身の整合性を損なう可能性のあるバイアスについて示している。
LM審査員は、他のLMや人間よりも独自の回答を好む。
論文 参考訳(メタデータ) (2025-12-05T02:36:13Z) - Mitigating Judgment Preference Bias in Large Language Models through Group-Based Polling [26.377421806098187]
自動評価器としての大規模言語モデル(LLM)が注目されている。
LLMは自分自身が生み出す反応を好む傾向があり、判断の信頼性を損なう。
本稿では,教師なしマルチエージェント協調最適化フレームワークであるグループベースポーリング最適化(Genii)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T12:32:31Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge [17.40713507922006]
大規模言語モデル(LLM)は、他の出力の迅速かつ信頼性の高い評価を提供する裁判官として機能する。
LLMは、自己バイアス(self-bias)として知られる、過度に好ましい評価を自身のアウトプットに体系的に割り当てる。
本稿では,自己バイアスを特定・推定できる仮定を明示的に定式化する統計的枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-08T21:22:12Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Do LLM Evaluators Prefer Themselves for a Reason? [21.730128682888168]
大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
論文 参考訳(メタデータ) (2025-04-04T18:09:23Z) - Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文 参考訳(メタデータ) (2025-03-12T10:06:03Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - OffsetBias: Leveraging Debiased Data for Tuning Evaluators [1.5790747258969664]
様々な判断モデルに固有の6種類のバイアスを定性的に同定する。
データセットの微調整は、バイアスに対する判断モデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-09T05:16:22Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。