論文の概要: Rethinking Exploration for Sample-Efficient Policy Learning
- arxiv url: http://arxiv.org/abs/2101.09458v1
- Date: Sat, 23 Jan 2021 08:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 10:43:05.906101
- Title: Rethinking Exploration for Sample-Efficient Policy Learning
- Title(参考訳): サンプル効率のよい政策学習のための探索再考
- Authors: William F. Whitney, Michael Bloesch, Jost Tobias Springenberg, Abbas
Abdolmaleki, Martin Riedmiller
- Abstract要約: 有向探索法がサンプル効率的な制御問題にはあまり影響を与えていないことを示す。
3つの問題は、BBEの適用性を制限している: 有限サンプルのバイアス、崩壊するボーナスへの緩やかな適応、そして目に見えない遷移に対する楽観性の欠如である。
本稿では,これらの制限に対処するため,ボーナスベースの探索レシピの変更を提案する。
UFOと呼ばれる結果のアルゴリズムは、有限サンプルに偏りのないポリシーを生成し、探索ボーナスの変化として高速適応し、新しい遷移に関して最適化する。
- 参考スコア(独自算出の注目度): 20.573107021603356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning for control has made great strides in terms
of performance and sample efficiency. We suggest that for many tasks the sample
efficiency of modern methods is now limited by the richness of the data
collected rather than the difficulty of policy fitting. We examine the reasons
that directed exploration methods in the bonus-based exploration (BBE) family
have not been more influential in the sample efficient control problem. Three
issues have limited the applicability of BBE: bias with finite samples, slow
adaptation to decaying bonuses, and lack of optimism on unseen transitions. We
propose modifications to the bonus-based exploration recipe to address each of
these limitations. The resulting algorithm, which we call UFO, produces
policies that are Unbiased with finite samples, Fast-adapting as the
exploration bonus changes, and Optimistic with respect to new transitions. We
include experiments showing that rapid directed exploration is a promising
direction to improve sample efficiency for control.
- Abstract(参考訳): 制御のためのオフポリシー強化学習は、パフォーマンスとサンプル効率の面で大きな進歩を遂げた。
多くのタスクにおいて、現代の手法のサンプル効率は、ポリシー適合の困難さよりも、収集したデータの豊かさによって制限されていると提案する。
ボーナスベース探索 (BBE) ファミリーにおける探索手法が, サンプル効率のよい制御問題にあまり影響を与えていない理由について検討した。
3つの問題はBBEの適用性を制限している: 有限サンプルのバイアス、崩壊するボーナスへの緩やかな適応、そして目に見えない遷移に対する楽観性の欠如である。
本稿では,これらの制限に対処するため,ボーナスベースの探索レシピの変更を提案する。
UFOと呼ばれる結果のアルゴリズムは、有限サンプルに偏りのないポリシーを生成し、探索ボーナスの変化として高速適応し、新しい遷移に関して最適化する。
高速指向探査が制御のサンプル効率を向上させるための有望な方向であることを示す実験を含む。
関連論文リスト
- When Do Off-Policy and On-Policy Policy Gradient Methods Align? [15.7221450531432]
政策勾配法は連続的な行動空間を持つタスクに対する強化学習アルゴリズムとして広く採用されている。
サンプル効率を改善するための一般的な方法は、重要でないサンプリングから計算可能な目的関数を変更することである。
本研究は,旅行目標と従来の政治目標との差について検討し,その差をオンオフギャップと呼ぶ。
論文 参考訳(メタデータ) (2024-02-19T10:42:34Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。