論文の概要: Beyond the Surface: Measuring Self-Preference in LLM Judgments
- arxiv url: http://arxiv.org/abs/2506.02592v1
- Date: Tue, 03 Jun 2025 08:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.475575
- Title: Beyond the Surface: Measuring Self-Preference in LLM Judgments
- Title(参考訳): 表面を超えて: LLMの判断における自己選好の測定
- Authors: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin,
- Abstract要約: 大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
- 参考スコア(独自算出の注目度): 35.66285592603435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示しており、それは、他のモデルによって生成されるものよりも、彼ら自身の反応を好む傾向にあることを示している。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
しかし、このアプローチは自己参照バイアスと応答品質を混同し、判断モデルからの高品質な応答は、バイアスがなくても正のスコア差をもたらす可能性がある。
そこで本研究では,実際の応答品質のプロキシとして金判定を導入し,自己選好バイアスを判断モデルが割り当てたスコアとそれに対応する金判定との差として評価するDBGスコアを提案する。
金の判定は真の応答品質を反映するため、DBGスコアは応答品質がバイアス測定に与える影響を緩和する。
DBGスコアを用いて、様々なバージョン、サイズ、推論能力のLSMにわたる自己選好バイアスを評価するための総合的な実験を行う。
さらに,自己選好バイアスの緩和に寄与する2つの要因について検討する。
最後に、注意に基づく視点から、自己参照バイアスの潜在的なメカニズムについて考察する。
私たちのコードとデータはhttps://github.com/zhiyuanc2001/self-preference.comで公開されています。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Do LLM Evaluators Prefer Themselves for a Reason? [21.730128682888168]
大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
論文 参考訳(メタデータ) (2025-04-04T18:09:23Z) - Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文 参考訳(メタデータ) (2025-03-12T10:06:03Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - OffsetBias: Leveraging Debiased Data for Tuning Evaluators [1.5790747258969664]
様々な判断モデルに固有の6種類のバイアスを定性的に同定する。
データセットの微調整は、バイアスに対する判断モデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-09T05:16:22Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。