論文の概要: Regularized Policies are Reward Robust
- arxiv url: http://arxiv.org/abs/2101.07012v1
- Date: Mon, 18 Jan 2021 11:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:05:18.296607
- Title: Regularized Policies are Reward Robust
- Title(参考訳): 正規化ポリシはリワードロバストである
- Authors: Hisham Husain and Kamil Ciosek and Ryota Tomioka
- Abstract要約: 強化学習(RL)における政策の正規化の効果について検討する。
その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
- 参考スコア(独自算出の注目度): 33.05828095421357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropic regularization of policies in Reinforcement Learning (RL) is a
commonly used heuristic to ensure that the learned policy explores the
state-space sufficiently before overfitting to a local optimal policy. The
primary motivation for using entropy is for exploration and disambiguating
optimal policies; however, the theoretical effects are not entirely understood.
In this work, we study the more general regularized RL objective and using
Fenchel duality; we derive the dual problem which takes the form of an
adversarial reward problem. In particular, we find that the optimal policy
found by a regularized objective is precisely an optimal policy of a
reinforcement learning problem under a worst-case adversarial reward. Our
result allows us to reinterpret the popular entropic regularization scheme as a
form of robustification. Furthermore, due to the generality of our results, we
apply to other existing regularization schemes. Our results thus give insights
into the effects of regularization of policies and deepen our understanding of
exploration through robust rewards at large.
- Abstract(参考訳): 強化学習(RL)における政策のエントロピー正則化(Entropic regularization)は、学習された政策が局所的最適政策に過度に適合する前に国家空間を十分に探索することを保証するために一般的に用いられるヒューリスティックである。
エントロピーを使う主な動機は最適政策の探索と曖昧化であるが、理論的な効果は完全には理解されていない。
本研究では、より一般化された正規化RLの目的とフェンシェル双対性について検討し、対角的報酬問題の形をとる双対問題を導出する。
特に, 正規化対象が求める最適方針は, 最悪の対人報酬の下での強化学習問題の最適方針であることがわかった。
その結果、一般的なエントロピー正規化スキームをロバスト化の形式として再解釈することができる。
さらに,結果の一般性から,既存の他の正規化スキームにも適用する。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
関連論文リスト
- CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z) - EnTRPO: Trust Region Policy Optimization Method with Entropy
Regularization [1.599072005190786]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、強化学習における政策探索アルゴリズムである。
本研究では、リプレイバッファを用いて、政治以外の学習環境からTRPOに借用する。
TRPO において、時間ステップで蓄積される pi の利点を生かすためにエントロピー正則化項を付加する。
論文 参考訳(メタデータ) (2021-10-26T03:04:00Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [119.8736858597118]
任意の報酬の線形結合によって望ましい最適政策を誘導できない簡単な例を示す。
この仕事は、Lagrange乗算器で状態を強化することによってこの欠点に対処する。
拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [91.44514047017954]
平均報酬設定下でのリスクに敏感な深層強化学習を,分散リスク基準を用いて初めて検討する。
ポリシ,ラグランジュ乗算器,フェンチェル双変数を反復的かつ効率的に更新するアクタークリティカルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。