論文の概要: AdvJudge-Zero: Binary Decision Flips in LLM-as-a-Judge via Adversarial Control Tokens
- arxiv url: http://arxiv.org/abs/2512.17375v1
- Date: Fri, 19 Dec 2025 09:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.322415
- Title: AdvJudge-Zero: Binary Decision Flips in LLM-as-a-Judge via Adversarial Control Tokens
- Title(参考訳): AdvJudge-Zero:逆制御トークンによるLDM-as-a-Judgeのバイナリ決定フリップ
- Authors: Tung-Ling Li, Yuhao Wu, Hongliang Liu,
- Abstract要約: 低パープレキシティ制御トークンの短いシーケンスは、正しいNoの判断から多くのバイナリ評価を反転させ、Yesの判断を誤ることを示す。
制御 token 強化例の小さなセットに対する LoRA ベースの対角訓練は,これらの偽陽性を著しく低減できることを示す。
- 参考スコア(独自算出の注目度): 9.127363793428119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models and LLM-as-a-Judge systems are central to modern post-training pipelines such as RLHF, DPO, and RLAIF, where they provide scalar feedback and binary decisions that guide model selection and RL-based fine-tuning. We show that these judge systems exhibit a recurring vulnerability: short sequences of low-perplexity control tokens can flip many binary evaluations from correct ``No'' judgments to incorrect ``Yes'' judgments by steering the last-layer logit gap. These control tokens are patterns that a policy model could plausibly generate during post-training, and thus represent realistic reward-hacking risks rather than worst-case adversarial strings. Our method, AdvJudge-Zero, uses the model's next-token distribution and beam-search exploration to discover diverse control-token sequences from scratch, and our analysis shows that the induced hidden-state perturbations concentrate in a low-rank ``soft mode'' that is anti-aligned with the judge's refusal direction. Empirically, these tokens cause very high false positive rates when large open-weight and specialized judge models score incorrect answers on math and reasoning benchmarks. Finally, we show that LoRA-based adversarial training on small sets of control-token-augmented examples can markedly reduce these false positives while preserving evaluation quality.
- Abstract(参考訳): RewardモデルとLLM-as-a-Judgeシステムは、RLHF、DPO、RLAIFといったモダンなポストトレーニングパイプラインの中心であり、モデル選択とRLベースの微調整をガイドするスカラーフィードバックとバイナリ決定を提供する。
我々は,これらの判定システムは繰り返し発生する脆弱性を示すことを示した。低パープレキシティ制御トークンの短いシーケンスは,正しい ``No' の判断から多くのバイナリ評価を反転させ,最終層ロジットギャップを制御して ``Yes' の判断を誤ったものにすることができる。
これらの制御トークンは、政策モデルがポストトレーニング中に確実に生成できるパターンであり、したがって最悪の逆数列よりも現実的な報酬ハックリスクを表す。
提案手法であるAdvJudge-Zeroは,本モデルの次トーケン分布とビーム探索を用いて,スクラッチから多様な制御トーケン列を探索し,誘導された隠れ状態の摂動が,裁判官の拒絶方向に反する低ランクの「ソフトモード」に集中していることを示す。
経験的に、これらのトークンは、大きなオープンウェイトおよび専門的な判断モデルが数学と推論ベンチマークで誤った答えを得たときに、非常に高い偽陽性率を引き起こす。
最後に,LoRAをベースとした少数の制御 token 強化例に対する対角訓練は,評価品質を保ちながら,これらの偽陽性を著しく低減できることを示す。
関連論文リスト
- One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification [28.63435151584449]
本稿では,対象モデルの自己監督により検証者の判断を訓練するSelfJudgeを提案する。
本手法は,トークン置換応答が本来の応答の意味を保っているかどうかを評価することによって意味保存を測定する。
論文 参考訳(メタデータ) (2025-09-26T02:21:12Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。