論文の概要: MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration
- arxiv url: http://arxiv.org/abs/2006.08170v5
- Date: Fri, 12 Nov 2021 03:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:39:34.433047
- Title: MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration
- Title(参考訳): MetaCURE: エンパワーメント駆動探索によるメタ強化学習
- Authors: Jin Zhang, Jianhao Wang, Hao Hu, Tong Chen, Yingfeng Chen, Changjie
Fan and Chongjie Zhang
- Abstract要約: 実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
- 参考スコア(独自算出の注目度): 52.48362697163477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta reinforcement learning (meta-RL) extracts knowledge from previous tasks
and achieves fast adaptation to new tasks. Despite recent progress, efficient
exploration in meta-RL remains a key challenge in sparse-reward tasks, as it
requires quickly finding informative task-relevant experiences in both
meta-training and adaptation. To address this challenge, we explicitly model an
exploration policy learning problem for meta-RL, which is separated from
exploitation policy learning, and introduce a novel empowerment-driven
exploration objective, which aims to maximize information gain for task
identification. We derive a corresponding intrinsic reward and develop a new
off-policy meta-RL framework, which efficiently learns separate context-aware
exploration and exploitation policies by sharing the knowledge of task
inference. Experimental evaluation shows that our meta-RL method significantly
outperforms state-of-the-art baselines on various sparse-reward MuJoCo
locomotion tasks and more complex sparse-reward Meta-World tasks.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、従来のタスクから知識を抽出し、新しいタスクに迅速に適応する。
近年の進歩にもかかわらず、メタRLの効率的な探索はスパース・リワード・タスクにおいて重要な課題である。
この課題に対処するため,我々はメタRLの探索政策学習問題を明示的にモデル化し,タスク識別のための情報ゲインを最大化することを目的とした,新たなエンパワーメント駆動探索目標を導入する。
そこで本研究では,タスク推論の知識を共有することによって,個別のコンテキスト認識探索・利用ポリシーを効率よく学習する,新たな非政治メタRLフレームワークを開発した。
実験により, メタRL法は, 各種スパースリワードMuJoCoロコモーションタスクおよびより複雑なスパースリワードMeta-Worldタスクにおいて, 最先端のベースラインを著しく上回ることがわかった。
関連論文リスト
- Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling [0.0]
RMRL-GTS(Robost Meta Reinforcement Learning with Guided Task Sampling)は,スコアとエポックに基づいてタスクサンプリングを制限する効果的な手法であることを示す。
ロバストなメタRLを実現するためには、低得点のタスクを集中的にサンプリングするだけでなく、サンプリングすべきタスクのタスク領域の制限と拡張も必要である。
論文 参考訳(メタデータ) (2022-03-31T05:16:24Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。