論文の概要: Robust Optimization for Mitigating Reward Hacking with Correlated Proxies
- arxiv url: http://arxiv.org/abs/2604.12086v1
- Date: Mon, 13 Apr 2026 21:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.134101
- Title: Robust Optimization for Mitigating Reward Hacking with Correlated Proxies
- Title(参考訳): 相関プロキシによる逆ハックの回避のためのロバスト最適化
- Authors: Zixuan Liu, Xiaolin Sun, Zizhan Zheng,
- Abstract要約: 我々は、すべてのr関連プロキシ報酬の空間におけるロバストなポリシー最適化問題として報酬ハッキングを定式化する。
我々のアルゴリズムは、最悪のケースリターンにおいてORPOを一貫して上回り、プロキシと真の報酬の相関の異なるレベルにおける堅牢性と安定性を改善している。
- 参考スコア(独自算出の注目度): 8.966550940372967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing robust reinforcement learning (RL) agents in the presence of imperfect reward signals remains a core challenge. In practice, agents are often trained with proxy rewards that only approximate the true objective, leaving them vulnerable to reward hacking, where high proxy returns arise from unintended or exploitative behaviors. Recent work formalizes this issue using r-correlation between proxy and true rewards, but existing methods like occupancy-regularized policy optimization (ORPO) optimize against a fixed proxy and do not provide strong guarantees against broader classes of correlated proxies. In this work, we formulate reward hacking as a robust policy optimization problem over the space of all r-correlated proxy rewards. We derive a tractable max-min formulation, where the agent maximizes performance under the worst-case proxy consistent with the correlation constraint. We further show that when the reward is a linear function of known features, our approach can be adapted to incorporate this prior knowledge, yielding both improved policies and interpretable worst-case rewards. Experiments across several environments show that our algorithms consistently outperform ORPO in worst-case returns, and offer improved robustness and stability across different levels of proxy-true reward correlation. These results show that our approach provides both robustness and transparency in settings where reward design is inherently uncertain. The code is available at https://github.com/ZixuanLiu4869/reward_hacking.
- Abstract(参考訳): 不完全な報酬信号の存在下で頑健な強化学習(RL)エージェントを設計することは、依然として重要な課題である。
実際には、エージェントは真の目的にのみ近いプロキシ報酬で訓練されることが多く、高いプロキシリターンは意図しないあるいは悪用的な振る舞いから生じる。
最近の研究は、プロキシと真の報酬のr相関を用いてこの問題を形式化するが、占有規則化ポリシー最適化(ORPO)のような既存の手法は、固定されたプロキシに対して最適化し、関連するプロキシのより広範なクラスに対して強い保証を提供しない。
本稿では,r-correlated proxy rewardsの空間上でのロバストなポリシー最適化問題として報酬ハッキングを定式化する。
そこで, エージェントが相関制約に整合した最悪のプロキシの下で性能を最大化する, トラクタブルな最大最小限の定式化を導出する。
さらに、報酬が既知の特徴の線形関数である場合、我々のアプローチは、この事前知識を取り入れ、改善されたポリシーと解釈可能な最悪の報酬の両方をもたらすことができることを示す。
いくつかの環境での実験により、我々のアルゴリズムは最悪のケースリターンにおいてORPOを一貫して上回り、異なるレベルのプロキシ-真の報酬相関で堅牢性と安定性が向上することが示された。
これらの結果から,提案手法は,報酬設計が本質的に不確実な設定において,堅牢性と透明性の両方を提供することが示された。
コードはhttps://github.com/ZixuanLiu4869/reward_hacking.comで公開されている。
関連論文リスト
- IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Inference-Time Reward Hacking in Large Language Models [29.829648695171425]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。
不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。
ヘッジは報酬のハッキングを軽減し、数学、推論、人為的な設定において優れた報酬のゆがみのトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2025-06-24T02:05:25Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。