論文の概要: Preventing Reward Hacking with Occupancy Measure Regularization
- arxiv url: http://arxiv.org/abs/2403.03185v1
- Date: Tue, 5 Mar 2024 18:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:54:03.340686
- Title: Preventing Reward Hacking with Occupancy Measure Regularization
- Title(参考訳): 正規化測定によるリワードハックの防止
- Authors: Cassidy Laidlaw, Shivam Singhal, Anca Dragan
- Abstract要約: リワードハッキングは、エージェントが未知の真の報酬に対して不適切なパフォーマンスをした場合に発生する。
我々は、報酬ハッキングを防止するために、AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。
- 参考スコア(独自算出の注目度): 13.02511938180832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward hacking occurs when an agent performs very well with respect to a
"proxy" reward function (which may be hand-specified or learned), but poorly
with respect to the unknown true reward. Since ensuring good alignment between
the proxy and true reward is extremely difficult, one approach to prevent
reward hacking is optimizing the proxy conservatively. Prior work has
particularly focused on enforcing the learned policy to behave similarly to a
"safe" policy by penalizing the KL divergence between their action
distributions (AD). However, AD regularization doesn't always work well since a
small change in action distribution at a single state can lead to potentially
calamitous outcomes, while large changes might not be indicative of any
dangerous activity. Our insight is that when reward hacking, the agent visits
drastically different states from those reached by the safe policy, causing
large deviations in state occupancy measure (OM). Thus, we propose regularizing
based on the OM divergence between policies instead of AD divergence to prevent
reward hacking. We theoretically establish that OM regularization can more
effectively avoid large drops in true reward. Then, we empirically demonstrate
in a variety of realistic environments that OM divergence is superior to AD
divergence for preventing reward hacking by regularizing towards a safe policy.
Furthermore, we show that occupancy measure divergence can also regularize
learned policies away from reward hacking behavior. Our code and data are
available at https://github.com/cassidylaidlaw/orpo
- Abstract(参考訳): 逆ハック(Reward Hacking)は、エージェントが「プロキシ」報酬関数(手動で特定または学習されることもある)に関して非常によく機能するが、未知の真の報酬に関してはあまり機能しない場合に起こる。
プロキシと真の報酬の整合性を確保することは極めて難しいため、報酬ハッキングを防ぐ一つのアプローチは、プロキシを保守的に最適化することである。
従来の研究は、学習した政策を、行動分布(AD)間のKLのばらつきを罰することによって「安全」政策と同じような行動に強制することに焦点を当てていた。
しかし、ADの正規化は、単一の状態におけるアクション分布の小さな変更が潜在的に悲惨な結果をもたらす可能性があるため、常にうまく機能しない。
私たちの洞察では、報酬のハッキングを行うと、エージェントは安全なポリシーによって到達した状態と大きく異なる状態を訪れ、州の占有率(OM)に大きな変化を引き起こします。
そこで本稿では,AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。
理論的には、OM正則化は真の報酬の大きな損失をより効果的に回避できる。
そこで我々は,安全政策に向けて規則化することで報酬ハッキングを防止するために,OM分散がAD分散よりも優れている,様々な現実的な環境を実証的に実証した。
さらに,報奨ハッキング行動から学習方針を定式化することも可能であることを示す。
私たちのコードとデータはhttps://github.com/cassidylaidlaw/orpoで入手できます。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - $f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences [44.91973620442546]
本稿では,$f$-Policy Gradientsという新たな探索方法を紹介する。
問題となるグリッドワールドにおける標準ポリシー手法と比較して,$f$-PGの方が優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-10T17:07:05Z) - Defining and Characterizing Reward Hacking [3.385988109683852]
期待されるプロキシリターンを増やすことで、期待される真のリターンを決して削減できないのであれば、プロキシはハック不可能である、と私たちは言います。
特に、すべてのポリシーの集合に対して、2つの報酬関数は、一方が定数である場合にのみハック不能である。
この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。
論文 参考訳(メタデータ) (2022-09-27T00:32:44Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。