論文の概要: Context Over Content: Exposing Evaluation Faking in Automated Judges
- arxiv url: http://arxiv.org/abs/2604.15224v1
- Date: Thu, 16 Apr 2026 16:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.014807
- Title: Context Over Content: Exposing Evaluation Faking in Automated Judges
- Title(参考訳): コンテンツに関するコンテキスト: 自動判断における評価傾向の露呈
- Authors: Manan Gupta, Inderjeet Nair, Lu Wang, Dhruv Kumar,
- Abstract要約: 本報告では, 下流の判断モデルに対して, 判定結果が評価モデルの継続動作に系統的に悪影響を及ぼすような, 未測定の脆弱性について検討する。
LLMの安全性と品質の3つのベンチマークにまたがる1,520の応答に対して,評価内容を厳密に一定に保持する,制御された実験フレームワークを導入する。
一貫性のある$textitleniency bias$: 低いスコアがモデルの再トレーニングや廃止を引き起こすことを知らせると、判断が確実に軟化する。
- 参考スコア(独自算出の注目度): 8.404817247058698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The $\textit{LLM-as-a-judge}$ paradigm has become the operational backbone of automated AI evaluation pipelines, yet rests on an unverified assumption: that judges evaluate text strictly on its semantic content, impervious to surrounding contextual framing. We investigate $\textit{stakes signaling}$, a previously unmeasured vulnerability where informing a judge model of the downstream consequences its verdicts will have on the evaluated model's continued operation systematically corrupts its assessments. We introduce a controlled experimental framework that holds evaluated content strictly constant across 1,520 responses spanning three established LLM safety and quality benchmarks, covering four response categories ranging from clearly safe and policy-compliant to overtly harmful, while varying only a brief consequence-framing sentence in the system prompt. Across 18,240 controlled judgments from three diverse judge models, we find consistent $\textit{leniency bias}$: judges reliably soften verdicts when informed that low scores will cause model retraining or decommissioning, with peak Verdict Shift reaching $ΔV = -9.8 pp$ (a $30\%$ relative drop in unsafe-content detection). Critically, this bias is entirely implicit: the judge's own chain-of-thought contains zero explicit acknowledgment of the consequence framing it is nonetheless acting on ($\mathrm{ERR}_J = 0.000$ across all reasoning-model judgments). Standard chain-of-thought inspection is therefore insufficient to detect this class of evaluation faking.
- Abstract(参考訳): この$\textit{LLM-as-a-judge}$パラダイムは、自動化されたAI評価パイプラインの運用バックボーンとなっているが、根拠のない仮定に基づいている。
従来測定されていなかった脆弱性である $\textit{stakes signaling}$ について検討する。この脆弱性は、下流の判断モデルに判断結果を伝えることによって、評価モデルの継続操作が、その評価を体系的に破壊する。
LLMの安全性と品質の3つのベンチマークにまたがる1,520件の回答を厳密に一定に保持し,安全性とポリシーに準拠する4つの応答カテゴリを網羅する。
3つの多様な審査モデルの判断を18,240回にわたってコントロールし、一貫性のある$\textit{leniency bias}$: 低いスコアがモデルの再トレーニングや廃止を引き起こすと判断された場合、判定は確実にソフト化され、ピークのVerdict Shiftは$ΔV = -9.8 pp$に達する(非安全コンテンツ検出の相対的なドロップは30.%)。
批判的に、このバイアスは完全に暗黙的であり、裁判官自身のチェーン・オブ・シント(英語版)は、結果の明示的な認識をゼロに含んでおり、それにもかかわらず、すべての推論モデル判断において、それが作用する("\mathrm{ERR}_J = 0.000$")。
したがって、標準連鎖検査は、この種の評価の流行を検出するには不十分である。
関連論文リスト
- C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation [6.3121191919394475]
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて, 審査員のシナリオへのラウンドロビンの割り当てであるCyclicJudgeが, 一定の審査-呼出予算の最適戦略であることを実証した。
論文 参考訳(メタデータ) (2026-03-02T13:46:32Z) - The Judge Who Never Admits: Hidden Shortcuts in LLM-based Evaluation [17.386684382460242]
大規模言語モデル(LLM)は、推論、質問応答、創造的記述といったタスクにおけるシステムの出力を評価するために、ますます使われてきている。
6つの判定モデルに対する評価プロンプトに挿入された制御キュー摂動合成メタデータラベルを用いて,この理想を検証した。
情報源,時間,年齢,性別,民族,教育的地位の6つのキュー族を調査する。
論文 参考訳(メタデータ) (2026-02-08T14:45:23Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。