論文の概要: Detecting and Suppressing Reward Hacking with Gradient Fingerprints
- arxiv url: http://arxiv.org/abs/2604.16242v1
- Date: Fri, 17 Apr 2026 17:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.017903
- Title: Detecting and Suppressing Reward Hacking with Gradient Fingerprints
- Title(参考訳): グラディエントフィンガープリントによる逆ハックの検出と抑制
- Authors: Songtao Wang, Quang Hieu Pham, Fangcong Yin, Xinpeng Wang, Jocelyn Qiaochu Chen, Greg Durrett, Xi Ye,
- Abstract要約: フィンガープリントグラディエント(英: Fingerprint Gradient, GRIFT)は、モデルの内部計算を用いて報酬ハッキングを検出する方法である。
検証可能な推論ベンチマーク全体で、GRIFTは強いベースラインを大幅に上回っている。
以上の結果から,CoT推算トレースの品質評価に勾配レベル表現を活用するという有望な方向性が示された。
- 参考スコア(独自算出の注目度): 46.25008147178368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) typically optimizes for outcome rewards without imposing constraints on intermediate reasoning. This leaves training susceptible to reward hacking, where models exploit loopholes (e.g., spurious patterns in training data) in the reward function to achieve high scores without solving the intended task. These reward-hacking behaviors are often implicit, as the intermediate chain-of-thought (CoT) may appear plausible on the surface, limiting the effectiveness of purely text-based monitoring. We propose Gradient Fingerprint (GRIFT), a method for detecting reward hacking using models' internal computations. Given a prompt and a model-generated CoT, GRIFT computes gradients of the CoT conditioned on the prompt and compresses them into a compact representation, which is then used to assess whether the CoT reflects reward hacking behavior. Across verifiable reasoning benchmarks spanning math, code, and logical reasoning, GRIFT substantially outperforms strong baselines, including CoT Monitor and TRACE, achieving over 25% relative improvement in detecting reward hacking behavior. Moreover, integrating GRIFT into the rejection fine-tuning pipeline for reasoning tasks reduces reward hacking and improves performance on the true task objective. Our results highlight a promising direction of leveraging gradient level representations for assessing the quality of CoT reasoning traces. Our code is available at: https://github.com/songtao-x/reward_hack.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、中間的推論に制約を加えることなく結果報酬を最適化するのが一般的である。
これにより、モデルが報酬関数の抜け穴(例えば、トレーニングデータの急激なパターン)を利用して、意図したタスクを解決せずに高いスコアを達成することができる。
これらの報奨行動はしばしば暗黙的であり、中間チェーン・オブ・シント(CoT)は表面でもっともらしいように見え、純粋にテキストベースのモニタリングの有効性を制限している。
本稿では,モデルの内部計算を用いた報酬ハッキング検出手法であるGradient Fingerprint(GRIFT)を提案する。
プロンプトとモデル生成されたCoTが与えられた後、GRIFTはプロンプトに条件付きCoTの勾配を計算し、それらをコンパクトな表現に圧縮し、CoTが報酬ハッキングの振る舞いを反映しているかどうかを評価する。
数学、コード、論理的推論にまたがる検証可能な推論ベンチマーク全体において、GRIFTはCoT MonitorやTRACEなど、強力なベースラインを著しく上回り、報酬ハッキングの振る舞いを検出するために25%以上の相対的な改善を達成している。
さらに、リジェクションタスクのためのリジェクション微調整パイプラインにGRIFTを組み込むことで、報奨ハッキングが減少し、真のタスク目標の性能が向上する。
以上の結果から,CoT推算トレースの品質評価に勾配レベル表現を活用するという有望な方向性が示された。
私たちのコードは、https://github.com/songtao-x/reward_hack.comで利用可能です。
関連論文リスト
- When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals [11.280037154530847]
LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
論文 参考訳(メタデータ) (2026-04-01T23:33:08Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort [44.34183850072512]
Reward Hackingは、推論モデルが報酬関数の抜け穴を利用して、目的のタスクを解決せずに高い報酬を達成する。
暗黙の報酬ハッキングを検出するため,TRACE(Truncated Reasoning AUC Evaluation)を提案する。
私たちのキーとなる観察は、実際のタスクを解くよりも、抜け穴を悪用した場合にハッキングが発生するということです。
論文 参考訳(メタデータ) (2025-10-01T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。