論文の概要: Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
- arxiv url: http://arxiv.org/abs/2403.03185v2
- Date: Wed, 23 Oct 2024 17:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:37.384109
- Title: Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
- Title(参考訳): Correlated Proxies: Reward Hackingの新たな定義と改善
- Authors: Cassidy Laidlaw, Shivam Singhal, Anca Dragan,
- Abstract要約: 状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
基本方針の正則化が報酬ハッキングを効果的に防止できることを理論的に示す。
- 参考スコア(独自算出の注目度): 11.589217788048964
- License:
- Abstract: Because it is difficult to precisely specify complex objectives, reinforcement learning policies are often optimized using flawed proxy rewards that seem to capture the true objective. However, optimizing proxy rewards frequently leads to reward hacking: the optimized reward function ceases to be a good proxy, and the resulting policy performs poorly with respect to the unspecified true reward. Principled solutions to reward hacking have been impeded by the lack of a good definition for the problem. To address this, we introduce a definition of reward hacking based on the correlation between proxy and true rewards for states and actions seen by a "base policy" that breaks down under optimization. We show that this definition captures reward hacking behavior across several realistic settings, including in reinforcement learning from human feedback (RLHF). We then show theoretically that regularization to the base policy can effectively prevent reward hacking. While current RLHF approaches apply a KL penalty between the action distributions of policies, our theory suggests that it is more effective to regularize using the $\chi^2$ divergence between the policies' occupancy measures. We intuitively show why this type of regularization is superior and demonstrate that it better mitigates reward hacking in practice across four realistic domains, including RLHF for LLMs. Our code is available at https://github.com/cassidylaidlaw/orpo.
- Abstract(参考訳): 複雑な目的を正確に特定することは難しいため、強化学習ポリシーは、真の目的を捉えているように見える欠陥のあるプロキシ報酬を使って最適化されることが多い。
しかし、プロキシ報酬の最適化は、しばしば報酬ハックにつながる:最適化された報酬関数は、良いプロキシになるのをやめ、その結果のポリシーは、特定されていない真の報酬に関して、うまく機能しない。
報酬のハッキングに対する原則的な解決策は、問題に対する適切な定義が欠如していることによって妨げられている。
これを解決するために、我々は、最適化の下で破壊される「基本方針」によって見られる状態と行動に対するプロキシと真の報酬の相関に基づく報酬ハッキングの定義を導入する。
この定義は、人間からのフィードバック(RLHF)からの強化学習を含む、現実的ないくつかの設定において、報酬ハッキングの振る舞いを捉えている。
次に,基本方針の正則化が報酬ハッキングを効果的に防止できることを理論的に示す。
現在のRLHFアプローチは政策の行動分布間でKLペナルティを適用するが、我々の理論は政策の占有率の差分$\chi^2$を用いて規則化することがより効果的であることを示唆している。
この種の正規化が優れている理由を直感的に示し、LLMのRLHFを含む4つの現実的なドメインでの報酬ハッキングを軽減した。
私たちのコードはhttps://github.com/cassidylaidlaw/orpo.comから入手可能です。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - $f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences [44.91973620442546]
本稿では,$f$-Policy Gradientsという新たな探索方法を紹介する。
問題となるグリッドワールドにおける標準ポリシー手法と比較して,$f$-PGの方が優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-10T17:07:05Z) - Defining and Characterizing Reward Hacking [3.385988109683852]
期待されるプロキシリターンを増やすことで、期待される真のリターンを決して削減できないのであれば、プロキシはハック不可能である、と私たちは言います。
特に、すべてのポリシーの集合に対して、2つの報酬関数は、一方が定数である場合にのみハック不能である。
この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。
論文 参考訳(メタデータ) (2022-09-27T00:32:44Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。