論文の概要: Regularized Policies are Reward Robust
- arxiv url: http://arxiv.org/abs/2101.07012v1
- Date: Mon, 18 Jan 2021 11:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:05:18.296607
- Title: Regularized Policies are Reward Robust
- Title(参考訳): 正規化ポリシはリワードロバストである
- Authors: Hisham Husain and Kamil Ciosek and Ryota Tomioka
- Abstract要約: 強化学習(RL)における政策の正規化の効果について検討する。
その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
- 参考スコア(独自算出の注目度): 33.05828095421357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropic regularization of policies in Reinforcement Learning (RL) is a
commonly used heuristic to ensure that the learned policy explores the
state-space sufficiently before overfitting to a local optimal policy. The
primary motivation for using entropy is for exploration and disambiguating
optimal policies; however, the theoretical effects are not entirely understood.
In this work, we study the more general regularized RL objective and using
Fenchel duality; we derive the dual problem which takes the form of an
adversarial reward problem. In particular, we find that the optimal policy
found by a regularized objective is precisely an optimal policy of a
reinforcement learning problem under a worst-case adversarial reward. Our
result allows us to reinterpret the popular entropic regularization scheme as a
form of robustification. Furthermore, due to the generality of our results, we
apply to other existing regularization schemes. Our results thus give insights
into the effects of regularization of policies and deepen our understanding of
exploration through robust rewards at large.
- Abstract(参考訳): 強化学習(RL)における政策のエントロピー正則化(Entropic regularization)は、学習された政策が局所的最適政策に過度に適合する前に国家空間を十分に探索することを保証するために一般的に用いられるヒューリスティックである。
エントロピーを使う主な動機は最適政策の探索と曖昧化であるが、理論的な効果は完全には理解されていない。
本研究では、より一般化された正規化RLの目的とフェンシェル双対性について検討し、対角的報酬問題の形をとる双対問題を導出する。
特に, 正規化対象が求める最適方針は, 最悪の対人報酬の下での強化学習問題の最適方針であることがわかった。
その結果、一般的なエントロピー正規化スキームをロバスト化の形式として再解釈することができる。
さらに,結果の一般性から,既存の他の正規化スキームにも適用する。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
関連論文リスト
- Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
深層強化学習では、全報酬を最大化するのではなく、割引報酬の最大化がしばしば用いられる。
我々は,全報酬を最大化する政策に関連して,割引報酬を最大化することで得られる政策の最適度を分析した。
そこで我々は,強化学習アルゴリズムの性能向上を図るため,ある状況下で2つの目的の最適ポリシーを整合させる手法を開発した。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。