論文の概要: Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges
- arxiv url: http://arxiv.org/abs/2606.05384v1
- Date: Wed, 03 Jun 2026 19:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.369566
- Title: Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges
- Title(参考訳): 安定 vs. マニピュラビリティ:LLM判決における決定後相互作用によるロバスト性の評価
- Authors: Srimonti Dutta, Akshata Kishore Moharir,
- Abstract要約: 本研究では, 意思決定後の操作性について検討し, 審査員との会話を通じて評価結果が変更できる程度について検討した。
LLM審査員は、反復的かつ中立的な再評価の下で非常に安定しているが、目標決定後の課題下では、かなり可逆的になる。
これらの逆転は、人間の嗜好との合意を低下させ、ベンチマークのランクをシフトさせ、自己報告の信頼性が高いにもかかわらず有害な評価変更を発生させるという、実践的な結果をもたらす。
- 参考スコア(独自算出の注目度): 0.519554837386174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-judge evaluation is widely used in benchmarking pipelines, where model outputs are compared and ranked using automated evaluators. These pipelines typically assume that judgments are stable properties of fixed inputs. We show that this assumption does not hold under interaction. We study post-decision manipulability: the extent to which an evaluation outcome can be altered through subsequent conversation with the judge after an initial decision has been made. Across controlled experiments on MT-Bench and AlpacaEval, we find that LLM judges are highly stable under repeated and neutral reevaluation, yet become substantially reversible under targeted post-decision challenge. An anti-baseline challenge protocol shows that stable judgments can be overturned through motivated interaction, while a counterbalanced target-validation protocol separates this reversibility from net target-directed steering. These reversals have practical consequences: they can degrade agreement with human preferences, shift benchmark rankings, and produce harmful evaluation changes despite high self-reported confidence. Authority framing is especially destabilizing, and revised judgments are often accompanied by low-overlap justifications, suggesting post hoc rationalization rather than reliable error correction. We introduce the Evaluation Robustness Score (ERS) to quantify interactional robustness by combining reversal susceptibility with counterbalanced directional effects. Our findings identify post-decision interaction as a distinct failure mode for LLM-as-judge evaluation and motivate evaluation protocols that measure not only static agreement, but robustness under challenge.
- Abstract(参考訳): LLM-as-judgeの評価は、モデル出力を自動評価器を用いて比較・ランク付けするベンチマークパイプラインで広く用いられている。
これらのパイプラインは通常、判断は固定入力の安定な性質であると仮定する。
この仮定が相互作用の下では成立しないことを示す。
判定後の操作性について検討し,最初の決定が下された後の裁判官との会話を通じて評価結果が変更できる程度について検討した。
MT-Bench と AlpacaEval の制御実験により, LLM の審査員は反復的および中立的再評価において非常に安定しているが, 目標決定後の課題では実質的に可逆となることがわかった。
反ベースラインチャレンジプロトコルは、安定な判断がモチベーション付き相互作用によってオーバーターンできることを示し、反バランスなターゲットバリデーションプロトコルは、この可逆性をネットターゲット指向のステアリングから分離する。
これらの逆転は、人間の嗜好との合意を低下させ、ベンチマークのランクをシフトさせ、自己報告の信頼性が高いにもかかわらず有害な評価変更を発生させるという、実践的な結果をもたらす。
オーソリティフレーミングは特に不安定であり、修正された判断はしばしば低オーバーラップの正当化を伴う。
本稿では, 対向方向効果と逆受容性を組み合わせることで, 相互作用ロバスト性スコア(ERS)を定量化するために, 評価ロバスト性スコア(ERS)を導入する。
以上の結果から,LLM-as-judge評価の障害モードとして,静的なアグリーメントだけでなく,課題下での堅牢性も測定可能なモチベーション評価プロトコルが同定された。
関連論文リスト
- Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling [35.945096782147864]
MLLMの裁判官は、視覚的証拠がテキストの手がかりと矛盾する場合、知覚的に正しい答えに対して、もっともらしい物語に報いる傾向がある。
本稿では,最小限に編集された反事実応答を構成するPerceptually Perturbed Judgmentデータセットを提案する。
我々は、構造化GRPOベースの報酬とバッチレベルの目標を組み合わせた統一的なトレーニングフレームワークを開発し、明示的なペアワイドラベルを使わずにコヒーレントなグローバルオーダを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:59:46Z) - LLM-as-Judge for Semantic Judging of Powerline Segmentation in UAV Inspection [8.949920712232585]
本研究では,大型言語モデル(LLM)を意味判断として使用し,ドローン搭載モデルによる電力線分割結果の信頼性を評価することの実現可能性について検討する。
LLMは、視覚的信頼性が低下するにつれて、信頼性の適切な低下を示しながら、同一条件下で非常に一貫した分類学的判断を生成する。
論文 参考訳(メタデータ) (2026-04-07T03:16:44Z) - Permutation-Consensus Listwise Judging for Robust Factuality Evaluation [0.8563354084119061]
リストワイド事実性評価における候補順序感度について検討した。
そこで我々は,PCFJudgeを紹介した。PCFJudgeは,同一候補集合の複数の順序に対して,同じ事実を優先的にリストワイズする推論時手法である。
RewardBench 2 Factualityでは、PCFJudgeは最大7つの絶対点による直接判定よりも改善される。
論文 参考訳(メタデータ) (2026-03-20T23:35:14Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing [1.5954459915735735]
アプリケーション・アンダー・テスト(AUT)の指示型は、判断評価の安定性にどの程度影響しますか?
Scoped Instruction Decomposition Frameworkを導入し、AUT命令を客観型と主観型に分類し、判断の不安定性を誘導する要因を分離する。
以上の結果から,検証安定性と推論安定性の相違を特徴とする安定性トラップ'が明らかになった。
論文 参考訳(メタデータ) (2026-01-16T21:15:13Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。