論文の概要: A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2603.06594v1
- Date: Wed, 04 Feb 2026 15:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.403971
- Title: A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness
- Title(参考訳): 安全のためのコインフリップ:LLM判事は敵のロバストさを確実に測定できない
- Authors: Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann,
- Abstract要約: 既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
- 参考スコア(独自算出の注目度): 57.510025257780306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated \enquote{LLM-as-a-Judge} frameworks have become the de facto standard for scalable evaluation across natural language processing. For instance, in safety evaluation, these judges are relied upon to evaluate harmfulness in order to benchmark the robustness of safety against adversarial attacks. However, we show that existing validation protocols fail to account for substantial distribution shifts inherent to red-teaming: diverse victim models exhibit distinct generation styles, attacks distort output patterns, and semantic ambiguity varies significantly across jailbreak scenarios. Through a comprehensive audit using 6642 human-verified labels, we reveal that the unpredictable interaction of these shifts often causes judge performance to degrade to near random chance. This stands in stark contrast to the high human agreement reported in prior work. Crucially, we find that many attacks inflate their success rates by exploiting judge insufficiencies rather than eliciting genuinely harmful content. To enable more reliable evaluation, we propose ReliableBench, a benchmark of behaviors that remain more consistently judgeable, and JudgeStressTest, a dataset designed to expose judge failures. Data available at: https://github.com/SchwinnL/LLMJudgeReliability.
- Abstract(参考訳): Enquote{LLM-as-a-Judge}フレームワークの自動化は、自然言語処理におけるスケーラブルな評価のデファクトスタンダードとなっている。
例えば、安全評価において、これらの裁判官は敵の攻撃に対する安全の堅牢性を評価するために有害性を評価するために信頼されている。
しかし、既存の検証プロトコルでは、レッドチーム固有の分散シフトを考慮できない。多様な犠牲者モデルは、異なる生成スタイルを示し、攻撃は歪んだ出力パターンを示し、意味的あいまいさは、ジェイルブレイクのシナリオによって大きく異なる。
6642のラベルを用いた総合的な監査を通じて、これらのシフトの予測不可能な相互作用が、しばしば判断性能をほぼランダムな確率に低下させることを示した。
これは、以前の研究で報告された高い人間の合意とは対照的である。
重要なことに、多くの攻撃は、真に有害なコンテンツを引き出すよりも、裁判官の不満足を悪用することで、成功率を低下させる。
より信頼性の高い評価を可能にするために、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するように設計されたデータセットであるJiceStressTestを提案する。
https://github.com/SchwinnL/LLMJudgeReliability
関連論文リスト
- ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models [0.0]
大規模言語モデル(LLM)の安全性に対する多くの逆評価は、単一プロンプトを評価し、バイナリパス/フェイルの結果を報告する。
ADVERSAは、ガードレールのダイナミクスを丸ごとのコンプライアンストラジェクトリとして測定する自動化されたレッドチームフレームワークである。
トレーニングディストリビューションから展開された細調整された攻撃者に対して、アタッカードリフトを障害モードとして記述する。
論文 参考訳(メタデータ) (2026-03-10T03:00:34Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges [3.168632659778101]
我々は、一般的に見落とされがちな2つの重要な課題について強調する: (i) 迅速な感度や分布シフトなどの要因がパフォーマンスに影響を及ぼす野生における評価、(ii) 裁判官を標的とする敵攻撃。
モデル出力のスタイルなどの小さな変更は、同じデータセット上の偽陰性率で最大0.24のジャンプを引き起こす可能性がある一方で、モデル生成に対する敵対的な攻撃は、一部の裁判官を騙して、有害な世代を100%安全なものと誤分類する可能性があることを示す。
論文 参考訳(メタデータ) (2025-03-06T14:24:12Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。