論文の概要: Do LLM Evaluators Prefer Themselves for a Reason?
- arxiv url: http://arxiv.org/abs/2504.03846v1
- Date: Fri, 04 Apr 2025 18:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:52.528802
- Title: Do LLM Evaluators Prefer Themselves for a Reason?
- Title(参考訳): LLM評価者は推論のためにテーマを優先するか?
- Authors: Wei-Lin Chen, Zhepei Wei, Xinyu Zhu, Shi Feng, Yu Meng,
- Abstract要約: 大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
- 参考スコア(独自算出の注目度): 21.730128682888168
- License:
- Abstract: Large language models (LLMs) are increasingly used as automatic evaluators in applications such as benchmarking, reward modeling, and self-refinement. Prior work highlights a potential self-preference bias where LLMs favor their own generated responses, a tendency often intensifying with model size and capability. This raises a critical question: Is self-preference detrimental, or does it simply reflect objectively superior outputs from more capable models? Disentangling these has been challenging due to the usage of subjective tasks in previous studies. To address this, we investigate self-preference using verifiable benchmarks (mathematical reasoning, factual knowledge, code generation) that allow objective ground-truth assessment. This enables us to distinguish harmful self-preference (favoring objectively worse responses) from legitimate self-preference (favoring genuinely superior ones). We conduct large-scale experiments under controlled evaluation conditions across diverse model families (e.g., Llama, Qwen, Gemma, Mistral, Phi, GPT, DeepSeek). Our findings reveal three key insights: (1) Better generators are better judges -- LLM evaluators' accuracy strongly correlates with their task performance, and much of the self-preference in capable models is legitimate. (2) Harmful self-preference persists, particularly when evaluator models perform poorly as generators on specific task instances. Stronger models exhibit more pronounced harmful bias when they err, though such incorrect generations are less frequent. (3) Inference-time scaling strategies, such as generating a long Chain-of-Thought before evaluation, effectively reduce the harmful self-preference. These results provide a more nuanced understanding of LLM-based evaluation and practical insights for improving its reliability.
- Abstract(参考訳): 大規模言語モデル (LLM) は、ベンチマーク、報酬モデリング、自己修正などのアプリケーションにおける自動評価手段として、ますます使われている。
以前の作業では、LLMが自身の生成したレスポンスを優先する、潜在的な自己参照バイアスが強調されていた。
自己推論は有害か、それとも、より有能なモデルからの客観的に優れたアウトプットを反映しているのか?
従来の研究では主観的タスクが用いられていたため、これらを遠ざけることは困難であった。
これを解決するために,本研究では,客観的基盤真理評価を可能にする検証可能なベンチマーク(数学的推論,事実知識,コード生成)を用いて自己評価を行う。
これにより、有害な自己選好(客観的に悪い反応)と正当な自己選好(真に優れた自己選好)を区別することができる。
各種モデルファミリ(Llama, Qwen, Gemma, Mistral, Phi, GPT, DeepSeek)の制御条件下で大規模実験を行った。
1) より優れたジェネレータはより良い判断者であり, LLM評価器の精度はタスク性能と強く相関し, 有能モデルにおける自己選好の多くは正当である。
2) 有害な自己参照は、特に評価モデルが特定のタスクインスタンスのジェネレータとして機能しない場合に持続する。
強いモデルは、より顕著な有害なバイアスを示すが、そのような誤った世代はそれほど多くない。
(3) 評価の前に長い連鎖を生成するような推論時スケーリング戦略は、有害な自己選好を効果的に減少させる。
これらの結果は、LCMに基づく評価のより微妙な理解と信頼性向上のための実践的な洞察を提供する。
関連論文リスト
- Self-Preference Bias in LLM-as-a-Judge [13.880151307013321]
大規模言語モデル(LLM)における自己参照バイアスを測定するための新しい指標を提案する。
以上の結果から, GPT-4は自己選好バイアスがかなり高いことが示唆された。
このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
論文 参考訳(メタデータ) (2024-10-29T07:42:18Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - LLM Evaluators Recognize and Favor Their Own Generations [33.672365386365236]
自己認識能力が自己評価に寄与するかどうかを検討する。
自己認識能力と自己参照バイアスの強さとの間には線形な相関関係が認められた。
我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。
論文 参考訳(メタデータ) (2024-04-15T16:49:59Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。