論文の概要: Preventing Reward Hacking with Occupancy Measure Regularization
- arxiv url: http://arxiv.org/abs/2403.03185v1
- Date: Tue, 5 Mar 2024 18:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:54:03.340686
- Title: Preventing Reward Hacking with Occupancy Measure Regularization
- Title(参考訳): 正規化測定によるリワードハックの防止
- Authors: Cassidy Laidlaw, Shivam Singhal, Anca Dragan
- Abstract要約: リワードハッキングは、エージェントが未知の真の報酬に対して不適切なパフォーマンスをした場合に発生する。
我々は、報酬ハッキングを防止するために、AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。
- 参考スコア(独自算出の注目度): 13.02511938180832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward hacking occurs when an agent performs very well with respect to a
"proxy" reward function (which may be hand-specified or learned), but poorly
with respect to the unknown true reward. Since ensuring good alignment between
the proxy and true reward is extremely difficult, one approach to prevent
reward hacking is optimizing the proxy conservatively. Prior work has
particularly focused on enforcing the learned policy to behave similarly to a
"safe" policy by penalizing the KL divergence between their action
distributions (AD). However, AD regularization doesn't always work well since a
small change in action distribution at a single state can lead to potentially
calamitous outcomes, while large changes might not be indicative of any
dangerous activity. Our insight is that when reward hacking, the agent visits
drastically different states from those reached by the safe policy, causing
large deviations in state occupancy measure (OM). Thus, we propose regularizing
based on the OM divergence between policies instead of AD divergence to prevent
reward hacking. We theoretically establish that OM regularization can more
effectively avoid large drops in true reward. Then, we empirically demonstrate
in a variety of realistic environments that OM divergence is superior to AD
divergence for preventing reward hacking by regularizing towards a safe policy.
Furthermore, we show that occupancy measure divergence can also regularize
learned policies away from reward hacking behavior. Our code and data are
available at https://github.com/cassidylaidlaw/orpo
- Abstract(参考訳): 逆ハック(Reward Hacking)は、エージェントが「プロキシ」報酬関数(手動で特定または学習されることもある)に関して非常によく機能するが、未知の真の報酬に関してはあまり機能しない場合に起こる。
プロキシと真の報酬の整合性を確保することは極めて難しいため、報酬ハッキングを防ぐ一つのアプローチは、プロキシを保守的に最適化することである。
従来の研究は、学習した政策を、行動分布(AD)間のKLのばらつきを罰することによって「安全」政策と同じような行動に強制することに焦点を当てていた。
しかし、ADの正規化は、単一の状態におけるアクション分布の小さな変更が潜在的に悲惨な結果をもたらす可能性があるため、常にうまく機能しない。
私たちの洞察では、報酬のハッキングを行うと、エージェントは安全なポリシーによって到達した状態と大きく異なる状態を訪れ、州の占有率(OM)に大きな変化を引き起こします。
そこで本稿では,AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。
理論的には、OM正則化は真の報酬の大きな損失をより効果的に回避できる。
そこで我々は,安全政策に向けて規則化することで報酬ハッキングを防止するために,OM分散がAD分散よりも優れている,様々な現実的な環境を実証的に実証した。
さらに,報奨ハッキング行動から学習方針を定式化することも可能であることを示す。
私たちのコードとデータはhttps://github.com/cassidylaidlaw/orpoで入手できます。
関連論文リスト
- Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Provable Defense against Backdoor Policies in Reinforcement Learning [35.908468039596734]
バックドアポリシー(英語: backdoor policy)とは、敵が隠されたトリガーを許可する、一見好意的なポリシーを公表するセキュリティの脅威である。
サブスペーストリガ仮定下での強化学習におけるバックドアポリシーに対する実証可能な防御機構を提案する。
論文 参考訳(メタデータ) (2022-11-18T23:12:24Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Defining and Characterizing Reward Hacking [3.385988109683852]
期待されるプロキシリターンを増やすことで、期待される真のリターンを決して削減できないのであれば、プロキシはハック不可能である、と私たちは言います。
特に、すべてのポリシーの集合に対して、2つの報酬関数は、一方が定数である場合にのみハック不能である。
この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。
論文 参考訳(メタデータ) (2022-09-27T00:32:44Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Greedification Operators for Policy Optimization: Investigating Forward
and Reverse KL Divergences [33.471102483095315]
パラメータ化ポリシとボルツマン分布のKL分散を作用値上で低減する際の近似グリード化について検討する。
逆KLは、より強力な政策改善保証を有するが、前方KLの削減は、より悪い政策をもたらす可能性があることを示す。
離散アクション設定やベンチマーク問題に有意な差は見られなかった。
論文 参考訳(メタデータ) (2021-07-17T17:09:18Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。