論文の概要: The Judge Who Never Admits: Hidden Shortcuts in LLM-based Evaluation
- arxiv url: http://arxiv.org/abs/2602.07996v1
- Date: Sun, 08 Feb 2026 14:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.911614
- Title: The Judge Who Never Admits: Hidden Shortcuts in LLM-based Evaluation
- Title(参考訳): 容認しない裁判官:LLMによる評価に隠されたショートカット
- Authors: Arash Marioriyad, Omid Ghahroodi, Ehsaneddin Asgari, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 大規模言語モデル(LLM)は、推論、質問応答、創造的記述といったタスクにおけるシステムの出力を評価するために、ますます使われてきている。
6つの判定モデルに対する評価プロンプトに挿入された制御キュー摂動合成メタデータラベルを用いて,この理想を検証した。
情報源,時間,年齢,性別,民族,教育的地位の6つのキュー族を調査する。
- 参考スコア(独自算出の注目度): 17.386684382460242
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as automatic judges to evaluate system outputs in tasks such as reasoning, question answering, and creative writing. A faithful judge should base its verdicts solely on content quality, remain invariant to irrelevant context, and transparently reflect the factors driving its decisions. We test this ideal via controlled cue perturbations-synthetic metadata labels injected into evaluation prompts-for six judge models: GPT-4o, Gemini-2.0-Flash, Gemma-3-27B, Qwen3-235B, Claude-3-Haiku, and Llama3-70B. Experiments span two complementary datasets with distinct evaluation regimes: ELI5 (factual QA) and LitBench (open-ended creative writing). We study six cue families: source, temporal, age, gender, ethnicity, and educational status. Beyond measuring verdict shift rates (VSR), we introduce cue acknowledgment rate (CAR) to quantify whether judges explicitly reference the injected cues in their natural-language rationales. Across cues with strong behavioral effects-e.g., provenance hierarchies (Expert > Human > LLM > Unknown), recency preferences (New > Old), and educational-status favoritism-CAR is typically at or near zero, indicating that shortcut reliance is largely unreported even when it drives decisions. Crucially, CAR is also dataset-dependent: explicit cue recognition is more likely to surface in the factual ELI5 setting for some models and cues, but often collapses in the open-ended LitBench regime, where large verdict shifts can persist despite zero acknowledgment. The combination of substantial verdict sensitivity and limited cue acknowledgment reveals an explanation gap in LLM-as-judge pipelines, raising concerns about reliability of model-based evaluation in both research and deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、質問応答、創造的な文章などのタスクにおいて、システム出力を評価するための自動判断器として、ますます使われている。
忠実な裁判官は、判断をコンテンツの品質のみに基づいて、無関係な文脈に不変であり、決定を導く要因を透過的に反映すべきである。
GPT-4o, Gemini-2.0-Flash, Gemma-3-27B, Qwen3-235B, Claude-3-Haiku, Llama3-70Bの6つの判定モデルに対して, 評価プロンプトに挿入された制御キュー摂動合成メタデータラベルを用いて, この理想を検証した。
実験は、ELI5(実際のQA)とLitBench(オープンなクリエイティブな書き込み)の2つの補完的なデータセットにまたがる。
情報源,時間,年齢,性別,民族,教育的地位の6つのキュー族を調査する。
評定シフト率(VSR)の測定以外にも、判断者が自然言語の有理性において注射された手がかりを明示的に参照するかどうかを定量化するために、cue accnowledment rate(CAR)を導入する。
強い行動効果を持つ手がかりは、例えば、前立腺階層(Expert > Human > LLM > Unknown)、前立腺選好(New > Old)、教育統計学の好奇心-CARは、通常ゼロに近い。
重要な点として、CARはデータセットに依存している: 明示的なキュー認識は、いくつかのモデルやキューの現実的な ELI5 設定で現れることが多いが、オープンエンドのLitBench 体制ではしばしば崩壊する。
LLM-as-judgeパイプラインには,実質的な検証感度と限定的なキュー認識を組み合わせることで,研究と展開の両面でモデルベース評価の信頼性に関する懸念が浮かび上がっている。
関連論文リスト
- Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations [3.262230127283452]
審査員が不正に完了したクエリに応答すると,評価者が自己優先の判断を下す可能性があることを示す。
評価基準(Evaluator Quality Baseline)を導入し,審査員が不正に投票した確率と,別のモデルから不正な反応を投票した確率とを比較した。
論文 参考訳(メタデータ) (2026-01-30T04:38:18Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - The Silent Judge: Unacknowledged Shortcut Bias in LLM-as-a-Judge [17.555073770285095]
大規模言語モデル(LLM)は、要約、対話、創造的執筆といったタスクにおいてシステム出力を評価する自動判断器として、ますます多くデプロイされている。
提案手法では,現行のLLM審査員は,プロンプトに導入したショートカットに頼って,両方のカウントでフェールすることを示す。
論文 参考訳(メタデータ) (2025-09-30T10:48:08Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。
判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文 参考訳(メタデータ) (2025-05-28T04:50:41Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。