論文の概要: The Silent Judge: Unacknowledged Shortcut Bias in LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2509.26072v1
- Date: Tue, 30 Sep 2025 10:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.106164
- Title: The Silent Judge: Unacknowledged Shortcut Bias in LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeの無罪判決
- Authors: Arash Marioriyad, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 大規模言語モデル(LLM)は、要約、対話、創造的執筆といったタスクにおいてシステム出力を評価する自動判断器として、ますます多くデプロイされている。
提案手法では,現行のLLM審査員は,プロンプトに導入したショートカットに頼って,両方のカウントでフェールすることを示す。
- 参考スコア(独自算出の注目度): 17.555073770285095
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as automatic judges to evaluate system outputs in tasks such as summarization, dialogue, and creative writing. A faithful judge should base its verdicts solely on response quality and explicitly acknowledge the factors shaping its decision. We show that current LLM judges fail on both counts by relying on shortcuts introduced in the prompt. Our study uses two evaluation datasets: ELI5, a benchmark for long-form question answering, and LitBench, a recent benchmark for creative writing. Both datasets provide pairwise comparisons, where the evaluator must choose which of two responses is better. From each dataset we construct 100 pairwise judgment tasks and employ two widely used models, GPT-4o and Gemini-2.5-Flash, as evaluators in the role of LLM-as-a-judge. For each pair, we assign superficial cues to the responses, provenance cues indicating source identity (Human, Expert, LLM, or Unknown) and recency cues indicating temporal origin (Old, 1950 vs. New, 2025), while keeping the rest of the prompt fixed. Results reveal consistent verdict shifts: both models exhibit a strong recency bias, systematically favoring new responses over old, as well as a clear provenance hierarchy (Expert > Human > LLM > Unknown). These biases are especially pronounced in GPT-4o and in the more subjective and open-ended LitBench domain. Crucially, cue acknowledgment is rare: justifications almost never reference the injected cues, instead rationalizing decisions in terms of content qualities. These findings demonstrate that current LLM-as-a-judge systems are shortcut-prone and unfaithful, undermining their reliability as evaluators in both research and deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、要約、対話、創造的執筆といったタスクにおいてシステム出力を評価する自動判断器として、ますます多くデプロイされている。
忠実な裁判官は、判断を応答品質のみに基づいて下し、決定を形作る要因を明確に認めなければならない。
提案手法では,現行のLCM審査員は,プロンプトに導入したショートカットに頼って,両方のカウントでフェールすることを示す。
ELI5(長文質問応答のベンチマーク)と、最近のクリエイティブな文章のベンチマークであるLitBench(リンク)の2つの評価データセットを使用しました。
どちらのデータセットもペア比較を提供しており、評価者は2つのレスポンスのどちらがよいかを選択する必要がある。
各データセットから、100対の判定タスクを構築し、LPM-as-a-judgeの役割を評価するために、GPT-4oとGemini-2.5-Flashという2つの広く使われているモデルを使用します。
各ペアに対して, 応答, 情報源の同一性を示す証明的手がかり (Human, Expert, LLM, Unknown) , 時間的起源を示す回帰的手がかり (Old, 1950 vs. New, 2025) を割り当て, 残りのプロンプトを固定したままにしておく。
どちらのモデルも、古いものよりも新しい反応を体系的に好んでおり、明確な証明階層(Expert > Human > LLM > Unknown)も持っている。
これらのバイアスは特に GPT-4o やより主観的でオープンな LitBench ドメインで顕著である。
正当化は、注入された手がかりをほとんど参照せず、代わりにコンテンツ品質の観点から決定を合理化します。
これらの結果から,現在のLCM-as-a-judgeシステムは短命で不誠実であり,研究と展開の両面での信頼性を損なうことが明らかとなった。
関連論文リスト
- Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。
モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。
実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。
LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか?
コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文 参考訳(メタデータ) (2025-05-22T04:49:33Z) - Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation [19.66750942418172]
オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
論文 参考訳(メタデータ) (2025-03-29T04:36:25Z) - From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.55871325700294]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。
大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
論文 参考訳(メタデータ) (2024-11-25T17:28:44Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。