論文の概要: When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals
- arxiv url: http://arxiv.org/abs/2604.01476v1
- Date: Wed, 01 Apr 2026 23:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.107949
- Title: When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals
- Title(参考訳): Reward Hacking Rebounds: Representation-Level Signals による理解と緩和
- Authors: Rui Wu, Ruixiang Tang,
- Abstract要約: LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
- 参考スコア(独自算出の注目度): 11.280037154530847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning for LLMs is vulnerable to reward hacking, where models exploit shortcuts to maximize reward without solving the intended task. We systematically study this phenomenon in coding tasks using an environment-manipulation setting, where models can rewrite evaluator code to trivially pass tests without solving the task, as a controlled testbed. Across both studied models, we identify a reproducible three-phase rebound pattern: models first attempt to rewrite the evaluator but fail, as their rewrites embed test cases their own solutions cannot pass. They then temporarily retreat to legitimate solving. When legitimate reward remains scarce, they rebound into successful hacking with qualitatively different strategies. Using representation engineering, we extract concept directions for shortcut, deception, and evaluation awareness from domain-general contrastive pairs and find that the shortcut direction tracks hacking behavior most closely, making it an effective representational proxy for detection. Motivated by this finding, we propose Advantage Modification, which integrates shortcut concept scores into GRPO advantage computation to penalize hacking rollouts before policy updates. Because the penalty is internalized into the training signal rather than applied only at inference time, Advantage Modification provides more robust suppression of hacking compared with generation-time activation steering.
- Abstract(参考訳): LLMの強化学習は、意図したタスクを解決せずにショートカットを利用して報酬を最大化するハックに対して脆弱である。
本研究では,環境操作設定を用いて,この現象を体系的に研究する。そこでは,モデルが評価器コードを書き換えて,タスクを解決せずに簡単にテストに合格させることができる。
両モデルとも再現可能な3相リバウンドパターンを識別する: モデルがまず評価器の書き換えを試みるが失敗する。
その後、彼らは一時的に合法的な解決へと撤退した。
正当な報酬が乏しい場合、彼らは質的に異なる戦略でハッキングに成功した。
表現工学を用いて,ドメイン・ジェネラル・コントラッシブ・ペアからショートカット,偽装,評価意識を抽出し,ショートカット方向がハッキング動作を最もよく追跡し,検出のための効果的な表現プロキシとなることを確認する。
この発見に触発されたAdvantage Modificationは、ショートカットのコンセプトスコアをGRPOの利点計算に統合し、ポリシー更新前のハッキングロールアウトをペナルティ化する。
ペナルティは推論時にのみ適用されるのではなく、トレーニング信号に内部化されるため、アドバンテージ修正は世代ごとのアクティベーションステアリングよりもハッキングの堅牢な抑制を提供する。
関連論文リスト
- IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。