Fugu-MT 論文翻訳(概要): Beyond the Surface: Measuring Self-Preference in LLM Judgments

論文の概要: Beyond the Surface: Measuring Self-Preference in LLM Judgments

arxiv url: http://arxiv.org/abs/2506.02592v1
Date: Tue, 03 Jun 2025 08:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.475575
Title: Beyond the Surface: Measuring Self-Preference in LLM Judgments
Title（参考訳）: 表面を超えて: LLMの判断における自己選好の測定
Authors: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin,
Abstract要約: 大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
参考スコア（独自算出の注目度）: 35.66285592603435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.
Abstract（参考訳）: 近年の研究では、大きな言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示しており、それは、他のモデルによって生成されるものよりも、彼ら自身の反応を好む傾向にあることを示している。既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。しかし、このアプローチは自己参照バイアスと応答品質を混同し、判断モデルからの高品質な応答は、バイアスがなくても正のスコア差をもたらす可能性がある。そこで本研究では,実際の応答品質のプロキシとして金判定を導入し,自己選好バイアスを判断モデルが割り当てたスコアとそれに対応する金判定との差として評価するDBGスコアを提案する。金の判定は真の応答品質を反映するため、DBGスコアは応答品質がバイアス測定に与える影響を緩和する。 DBGスコアを用いて、様々なバージョン、サイズ、推論能力のLSMにわたる自己選好バイアスを評価するための総合的な実験を行う。さらに,自己選好バイアスの緩和に寄与する2つの要因について検討する。最後に、注意に基づく視点から、自己参照バイアスの潜在的なメカニズムについて考察する。私たちのコードとデータはhttps://github.com/zhiyuanc2001/self-preference.comで公開されています。

関連論文リスト

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Do LLM Evaluators Prefer Themselves for a Reason? [21.730128682888168]
大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
論文参考訳（メタデータ） (2025-04-04T18:09:23Z)
Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文参考訳（メタデータ） (2025-03-12T10:06:03Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
OffsetBias: Leveraging Debiased Data for Tuning Evaluators [1.5790747258969664]
様々な判断モデルに固有の6種類のバイアスを定性的に同定する。データセットの微調整は、バイアスに対する判断モデルの堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-09T05:16:22Z)
When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文参考訳（メタデータ） (2024-04-14T02:47:32Z)
Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文参考訳（メタデータ） (2024-02-17T11:25:26Z)
Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文参考訳（メタデータ） (2023-10-13T00:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。