論文の概要: Skill-based Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.11828v1
- Date: Mon, 25 Apr 2022 17:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:36:42.825748
- Title: Skill-based Meta-Reinforcement Learning
- Title(参考訳): スキルに基づくメタ強化学習
- Authors: Taewook Nam, Shao-Hua Sun, Karl Pertsch, Sung Ju Hwang, Joseph J Lim
- Abstract要約: 本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
- 参考スコア(独自算出の注目度): 65.31995608339962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep reinforcement learning methods have shown impressive results in
robot learning, their sample inefficiency makes the learning of complex,
long-horizon behaviors with real robot systems infeasible. To mitigate this
issue, meta-reinforcement learning methods aim to enable fast learning on novel
tasks by learning how to learn. Yet, the application has been limited to
short-horizon tasks with dense rewards. To enable learning long-horizon
behaviors, recent works have explored leveraging prior experience in the form
of offline datasets without reward or task annotations. While these approaches
yield improved sample efficiency, millions of interactions with environments
are still required to solve complex tasks. In this work, we devise a method
that enables meta-learning on long-horizon, sparse-reward tasks, allowing us to
solve unseen target tasks with orders of magnitude fewer environment
interactions. Our core idea is to leverage prior experience extracted from
offline datasets during meta-learning. Specifically, we propose to (1) extract
reusable skills and a skill prior from offline datasets, (2) meta-train a
high-level policy that learns to efficiently compose learned skills into
long-horizon behaviors, and (3) rapidly adapt the meta-trained policy to solve
an unseen target task. Experimental results on continuous control tasks in
navigation and manipulation demonstrate that the proposed method can
efficiently solve long-horizon novel target tasks by combining the strengths of
meta-learning and the usage of offline datasets, while prior approaches in RL,
meta-RL, and multi-task RL require substantially more environment interactions
to solve the tasks.
- Abstract(参考訳): 深層強化学習法は、ロボット学習において顕著な結果を示しているが、そのサンプルの非効率さは、実際のロボットシステムによる複雑な長い水平行動の学習を可能にする。
この問題を緩和するために,メタ強化学習法は,学習方法を学ぶことで,新しいタスクの学習を高速化することを目的としている。
しかし、このアプリケーションは、高い報酬を伴う短いホリゾンタスクに限定されている。
長時間ホリゾン動作の学習を可能にするために、最近の研究は、報酬やタスクアノテーションなしでオフラインデータセットの形での事前経験の活用を探求している。
これらのアプローチはサンプル効率を改善するが、複雑なタスクを解決するには環境との数百万の相互作用が必要である。
本研究では,長時間ホリゾン,スパースリワードタスクでメタラーニングを可能にする手法を考案し,環境インタラクションの桁違いな数で対象タスクの未解決を解決した。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
具体的には,(1)オフラインデータセットに先立って再利用可能なスキルとスキルを抽出し,(2)学習スキルを長いホリゾン行動に効率的に構成することを学ぶ高レベルのポリシーをメタトレーニングし,(3)学習したポリシーを迅速に適用して目標課題を解決することを提案する。
ナビゲーションおよび操作における連続制御タスクの実験結果から,メタ学習の長所とオフラインデータセットの活用を併用することで,提案手法が長期的新規目標タスクを効果的に解決できること,RL,メタRL,マルチタスクRLの事前アプローチでは,タスクの解決に相当な環境相互作用が必要となることが示されている。
関連論文リスト
- Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。