論文の概要: Mitigating Self-Preference by Authorship Obfuscation
- arxiv url: http://arxiv.org/abs/2512.05379v1
- Date: Fri, 05 Dec 2025 02:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.875865
- Title: Mitigating Self-Preference by Authorship Obfuscation
- Title(参考訳): オーサシップの難読化による自己選好の緩和
- Authors: Taslim Mahbub, Shi Feng,
- Abstract要約: 言語モデル(LM)判定器は、LM出力の品質を評価するために広く使われている。
多くの利点があるにもかかわらず、LMの審査員は評価において自身の整合性を損なう可能性のあるバイアスについて示している。
LM審査員は、他のLMや人間よりも独自の回答を好む。
- 参考スコア(独自算出の注目度): 7.267505038291745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) judges are widely used to evaluate the quality of LM outputs. Despite many advantages, LM judges display concerning biases that can impair their integrity in evaluations. One such bias is self-preference: LM judges preferring their own answers over those produced by other LMs or humans. The bias is hard to eliminate as frontier LM judges can distinguish their own outputs from those of others, even when the evaluation candidates are not labeled with their sources. In this paper, we investigate strategies to mitigate self-preference by reducing the LM judges' ability to recognize their own outputs. We apply black-box perturbations to evaluation candidates in pairwise comparison to obfuscate the authorship and reduce self-recognition. We find that perturbations as simple as synonym replacement for a few words predictably reduce self-preference. However, we also uncover fundamental challenges to eliminating the bias: when we extrapolate our perturbations to a more complete neutralization of stylistic differences between the evaluation candidates, self-preference recovers. Our findings suggest that self-recognition and self-preference can happen on many semantic levels, and complete mitigation remains challenging despite promising initial results.
- Abstract(参考訳): 言語モデル(LM)判定器は、LM出力の品質を評価するために広く使われている。
多くの利点があるにもかかわらず、LMの審査員は評価において自身の整合性を損なう可能性のあるバイアスについて示している。
LMの判断者は、他のLMや人間よりも独自の答えを好む。
このバイアスは、評価候補がソースにラベル付けされていない場合でも、フロンティアLM審査員が自身のアウトプットを他と区別できるため、排除するのは難しい。
本稿では,LM審査員の自己評価能力の低下による自己選好の緩和策について検討する。
著者の難読化と自己認識の低下を両面から比較して評価対象にブラックボックス摂動を適用した。
摂動は、いくつかの単語の同義語に代えて単純なものであり、予測可能な自己選好を減少させる。
しかし、偏見を排除するための根本的な課題も明らかにした: 評価候補間の形式的差異のより完全な中和に摂動を外挿すると、自己選好が回復する。
本研究は, 自己認識と自己評価が多くの意味レベルで起こりうることを示唆し, 有望な初期結果にもかかわらず, 完全な緩和は困難なままである。
関連論文リスト
- Beyond the Surface: Measuring Self-Preference in LLM Judgments [35.66285592603435]
大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。
既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。
そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
論文 参考訳(メタデータ) (2025-06-03T08:12:47Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Do LLM Evaluators Prefer Themselves for a Reason? [23.007963281858792]
大規模言語モデル(LLM)は、ベンチマーク、報酬モデリング、自己修正といったアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己参照は有害か、それとも、より強力なモデルの真に高品質な出力を単純に反映しているか?
論文 参考訳(メタデータ) (2025-04-04T18:09:23Z) - Self-Preference Bias in LLM-as-a-Judge [13.880151307013321]
大規模言語モデル(LLM)における自己参照バイアスを測定するための新しい指標を提案する。
以上の結果から, GPT-4は自己選好バイアスがかなり高いことが示唆された。
このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
論文 参考訳(メタデータ) (2024-10-29T07:42:18Z) - LLM Evaluators Recognize and Favor Their Own Generations [33.672365386365236]
自己認識能力が自己評価に寄与するかどうかを検討する。
自己認識能力と自己参照バイアスの強さとの間には線形な相関関係が認められた。
我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
論文 参考訳(メタデータ) (2024-04-15T16:49:59Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。