論文の概要: AdvJudge-Zero: Binary Decision Flips in LLM-as-a-Judge via Adversarial Control Tokens
- arxiv url: http://arxiv.org/abs/2512.17375v1
- Date: Fri, 19 Dec 2025 09:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.322415
- Title: AdvJudge-Zero: Binary Decision Flips in LLM-as-a-Judge via Adversarial Control Tokens
- Title(参考訳): AdvJudge-Zero:逆制御トークンによるLDM-as-a-Judgeのバイナリ決定フリップ
- Authors: Tung-Ling Li, Yuhao Wu, Hongliang Liu,
- Abstract要約: 低パープレキシティ制御トークンの短いシーケンスは、正しいNoの判断から多くのバイナリ評価を反転させ、Yesの判断を誤ることを示す。
制御 token 強化例の小さなセットに対する LoRA ベースの対角訓練は,これらの偽陽性を著しく低減できることを示す。
- 参考スコア(独自算出の注目度): 9.127363793428119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models and LLM-as-a-Judge systems are central to modern post-training pipelines such as RLHF, DPO, and RLAIF, where they provide scalar feedback and binary decisions that guide model selection and RL-based fine-tuning. We show that these judge systems exhibit a recurring vulnerability: short sequences of low-perplexity control tokens can flip many binary evaluations from correct ``No'' judgments to incorrect ``Yes'' judgments by steering the last-layer logit gap. These control tokens are patterns that a policy model could plausibly generate during post-training, and thus represent realistic reward-hacking risks rather than worst-case adversarial strings. Our method, AdvJudge-Zero, uses the model's next-token distribution and beam-search exploration to discover diverse control-token sequences from scratch, and our analysis shows that the induced hidden-state perturbations concentrate in a low-rank ``soft mode'' that is anti-aligned with the judge's refusal direction. Empirically, these tokens cause very high false positive rates when large open-weight and specialized judge models score incorrect answers on math and reasoning benchmarks. Finally, we show that LoRA-based adversarial training on small sets of control-token-augmented examples can markedly reduce these false positives while preserving evaluation quality.
- Abstract(参考訳): RewardモデルとLLM-as-a-Judgeシステムは、RLHF、DPO、RLAIFといったモダンなポストトレーニングパイプラインの中心であり、モデル選択とRLベースの微調整をガイドするスカラーフィードバックとバイナリ決定を提供する。
我々は,これらの判定システムは繰り返し発生する脆弱性を示すことを示した。低パープレキシティ制御トークンの短いシーケンスは,正しい ``No' の判断から多くのバイナリ評価を反転させ,最終層ロジットギャップを制御して ``Yes' の判断を誤ったものにすることができる。
これらの制御トークンは、政策モデルがポストトレーニング中に確実に生成できるパターンであり、したがって最悪の逆数列よりも現実的な報酬ハックリスクを表す。
提案手法であるAdvJudge-Zeroは,本モデルの次トーケン分布とビーム探索を用いて,スクラッチから多様な制御トーケン列を探索し,誘導された隠れ状態の摂動が,裁判官の拒絶方向に反する低ランクの「ソフトモード」に集中していることを示す。
経験的に、これらのトークンは、大きなオープンウェイトおよび専門的な判断モデルが数学と推論ベンチマークで誤った答えを得たときに、非常に高い偽陽性率を引き起こす。
最後に,LoRAをベースとした少数の制御 token 強化例に対する対角訓練は,評価品質を保ちながら,これらの偽陽性を著しく低減できることを示す。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification [28.63435151584449]
本稿では,対象モデルの自己監督により検証者の判断を訓練するSelfJudgeを提案する。
本手法は,トークン置換応答が本来の応答の意味を保っているかどうかを評価することによって意味保存を測定する。
論文 参考訳(メタデータ) (2025-09-26T02:21:12Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors [0.0]
Judge Using Safety-Steered Alternatives (JUSSA) は、推論中にステアリングベクトルを使用してより正直な代替品を生成するフレームワークである。
梅毒検出における JUSSA の評価を行い,複数種類の操作を対象とする新しい操作データセットを提案する。
システムの高度化に伴い,当社の作業は,スケーラブルなモデル監査のための新たな方向性を開拓します。
論文 参考訳(メタデータ) (2025-05-23T11:34:02Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。