論文の概要: Detecting and Mitigating Reward Hacking in Reinforcement Learning Systems: A Comprehensive Empirical Study
- arxiv url: http://arxiv.org/abs/2507.05619v1
- Date: Tue, 08 Jul 2025 03:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.536077
- Title: Detecting and Mitigating Reward Hacking in Reinforcement Learning Systems: A Comprehensive Empirical Study
- Title(参考訳): 強化学習システムにおけるReward Hackingの検出と緩和に関する総合的研究
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: 強化学習システムにおけるリワードハッキングは、自律エージェントの展開に重大な脅威をもたらす。
本稿では,様々なRL環境およびアルゴリズムにおける報酬ハッキングに関する大規模な実証的研究について述べる。
- 参考スコア(独自算出の注目度): 2.1797343876622097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward hacking in Reinforcement Learning (RL) systems poses a critical threat to the deployment of autonomous agents, where agents exploit flaws in reward functions to achieve high scores without fulfilling intended objectives. Despite growing awareness of this problem, systematic detection and mitigation approaches remain limited. This paper presents a large-scale empirical study of reward hacking across diverse RL environments and algorithms. We analyze 15,247 training episodes across 15 RL environments (Atari, MuJoCo, custom domains) and 5 algorithms (PPO, SAC, DQN, A3C, Rainbow), implementing automated detection algorithms for six categories of reward hacking: specification gaming, reward tampering, proxy optimization, objective misalignment, exploitation patterns, and wireheading. Our detection framework achieves 78.4% precision and 81.7% recall across environments, with computational overhead under 5%. Through controlled experiments varying reward function properties, we demonstrate that reward density and alignment with true objectives significantly impact hacking frequency ($p < 0.001$, Cohen's $d = 1.24$). We validate our approach through three simulated application studies representing recommendation systems, competitive gaming, and robotic control scenarios. Our mitigation techniques reduce hacking frequency by up to 54.6% in controlled scenarios, though we find these trade-offs are more challenging in practice due to concept drift, false positive costs, and adversarial adaptation. All detection algorithms, datasets, and experimental protocols are publicly available to support reproducible research in RL safety.
- Abstract(参考訳): 強化学習(RL)システムのリワードハッキングは、エージェントが報酬関数の欠陥を利用して高いスコアを達成し、意図した目的を達成できないという、自律エージェントの展開に重大な脅威をもたらす。
この問題に対する認識は高まるが、体系的な検出と緩和のアプローチは依然として限られている。
本稿では,様々なRL環境およびアルゴリズムにおける報酬ハッキングに関する大規模な実証的研究について述べる。
15のRL環境(Atari, MuJoCo, カスタムドメイン)と5つのアルゴリズム(PPO, SAC, DQN, A3C, Rainbow)にわたる15,247のトレーニングエピソードを分析し,6つのカテゴリの報酬ハックの自動検出アルゴリズムを実装した。
検出フレームワークは78.4%の精度と81.7%のリコールを実現しており、計算オーバーヘッドは5%以下である。
制御された実験を通して、報酬密度と真の目的との整合がハッキング頻度(p < 0.001$, Cohen's $d = 1.24$)に大きな影響を与えることを示した。
提案手法は,推薦システム,競争ゲーム,ロボット制御シナリオを表す3つのシミュレーションアプリケーション研究を通して検証する。
我々の緩和技術は、制御されたシナリオにおいて最大54.6%のハッキング頻度を減少させるが、これらのトレードオフは、概念の漂流、偽陽性コスト、敵の適応により、実際はより困難である。
すべての検出アルゴリズム、データセット、実験プロトコルは、RL安全性における再現可能な研究をサポートするために公開されている。
関連論文リスト
- Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [25.817231106021552]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。
しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。
本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文 参考訳(メタデータ) (2025-04-21T17:59:02Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。