論文の概要: Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges
- arxiv url: http://arxiv.org/abs/2605.06161v1
- Date: Thu, 07 May 2026 12:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.791428
- Title: Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges
- Title(参考訳): LLMの安全審査の信頼性テストとしての政策不変性
- Authors: Shihao Weng, Yang Feng, Xiaofei Xie,
- Abstract要約: LLM-as-a-Judgeパイプラインは、エージェント安全性のデファクト評価器となっている。
既存のベンチマークでは、評定がエージェントの行動に依存するか、それとも単に評価方針がどう語られるかをチェックすることなく、その評定を根底からのプロキシとして扱う。
我々は、証明された等価な書き換えの下でのルーブリック・セマンティック不変性、意図的な厳密なシフトの下でのルーブリック・スレッショルド不変性、曖昧さを意識したキャリブレーションの3つの検証可能な原則として運用する。
- 参考スコア(独自算出の注目度): 26.595399077062638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge pipelines have become the de facto evaluator for agent safety, yet existing benchmarks treat their verdicts as ground-truth proxies without checking whether the verdicts depend on the agent's behavior or merely on how the evaluation policy happens to be worded. We argue that any trustworthy safety judge must satisfy a basic property we call policy invariance, and we operationalize it as three testable principles: rubric-semantics invariance under certified-equivalent rewrites, rubric-threshold invariance under intentional strict-to-lenient shifts, and ambiguity-aware calibration so that verdict instability concentrates on genuinely ambiguous cases. Instantiating these principles as a stress-test protocol with four agent-class judges on trajectories drawn from ASSEBench and R-Judge, we surface a previously unmeasured failure mode: today's judges respond to meaningful normative shifts and to meaningless structural rewrites with comparable strength, and cannot tell the two apart. Content-preserving policy rewrites flip up to 9.1% of verdicts above baseline jitter, and 18-43% of all observed flips occur on unambiguous cases under such rewrites, so existing safety scores conflate what the agent did with how the evaluator was prompted. Beyond the diagnosis, we contribute the Policy Invariance Score and the Judge Card reporting protocol, which expose an order-of-magnitude spread in judge reliability that is invisible to accuracy-only leaderboards. We release the protocol and code so that future agent-safety benchmarks can audit their own evaluators rather than trust them by default.
- Abstract(参考訳): LLM-as-a-Judgeパイプラインはエージェントの安全性のデファクト評価ツールとなっているが、既存のベンチマークでは、検証がエージェントの振る舞いに依存するか、単に評価ポリシーがどのように語られるかをチェックすることなく、彼らの判断を地道プロキシとして扱う。
信頼に値する安全判事は、政策不変性と呼ばれる基本的特性を満たさなければならないとし、認定された等価な書き直しの下でのルーブリック・セマンティックな不変性、意図的な厳密なシフトの下でのルーブリック・スレッショルドな不変性、真にあいまいなケースに集中するように曖昧さを意識した校正という3つの証明可能な原則として運用する。
これらの原則を、ASSEBenchとR-Judgeから引き出されたトラジェクトリに関する4人のエージェントクラスの裁判官によるストレステストプロトコルとして実証し、これまで計測されていなかった障害モードを提示する:今日の裁判官は、有意義な規範的なシフトに応答し、同じ強度で無意味な構造的な書き直しに応答し、両者を区別することができない。
コンテンツ保存ポリシーの書き直しは、ベースラインジッター上の評定の9.1%に跳ね返り、観察されたすべてのフリップの18-43%は、このような書き直しの下で不明瞭なケースで発生し、既存の安全スコアは、エージェントが評価者がどのように引き起こされたかを説明する。
診断の他に、ポリシ不変スコアとジャッジカードレポートプロトコルをコントリビュートし、精度のみのリーダーボードには見えない、判断信頼性のオーダー・オブ・マグニチュードを公開します。
我々はプロトコルとコードを公開し、将来のエージェントセーフティベンチマークがデフォルトで信頼するのではなく、彼ら自身の評価を監査できるようにします。
関連論文リスト
- Rethinking Uncertainty in Segmentation: From Estimation to Decision [0.0]
医用画像のセグメンテーションでは、不確実性推定がしばしば報告されるが、意思決定を導くために使われることは稀である。
セグメンテーションを2段階のパイプラインとして定式化し、それに続く決定を行い、不確実性のみを最適化することは、達成可能な安全性向上のほとんどを達成できないことを示す。
以上の結果から,最も優れた手法とポリシーの組み合わせは,最大80%のセグメンテーション誤差をわずか25%のdeferralで除去できることが示唆された。
論文 参考訳(メタデータ) (2026-04-14T19:52:05Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing [1.5954459915735735]
アプリケーション・アンダー・テスト(AUT)の指示型は、判断評価の安定性にどの程度影響しますか?
Scoped Instruction Decomposition Frameworkを導入し、AUT命令を客観型と主観型に分類し、判断の不安定性を誘導する要因を分離する。
以上の結果から,検証安定性と推論安定性の相違を特徴とする安定性トラップ'が明らかになった。
論文 参考訳(メタデータ) (2026-01-16T21:15:13Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。