論文の概要: CoMPS: Continual Meta Policy Search
- arxiv url: http://arxiv.org/abs/2112.04467v1
- Date: Wed, 8 Dec 2021 18:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:30:45.804156
- Title: CoMPS: Continual Meta Policy Search
- Title(参考訳): CoMPS: 継続的なメタポリシー検索
- Authors: Glen Berseth, Zhiwei Zhang, Grace Zhang, Chelsea Finn, Sergey Levine
- Abstract要約: 逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
- 参考スコア(独自算出の注目度): 113.33157585319906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a new continual meta-learning method to address challenges in
sequential multi-task learning. In this setting, the agent's goal is to achieve
high reward over any sequence of tasks quickly. Prior meta-reinforcement
learning algorithms have demonstrated promising results in accelerating the
acquisition of new tasks. However, they require access to all tasks during
training. Beyond simply transferring past experience to new tasks, our goal is
to devise continual reinforcement learning algorithms that learn to learn,
using their experience on previous tasks to learn new tasks more quickly. We
introduce a new method, continual meta-policy search (CoMPS), that removes this
limitation by meta-training in an incremental fashion, over each task in a
sequence, without revisiting prior tasks. CoMPS continuously repeats two
subroutines: learning a new task using RL and using the experience from RL to
perform completely offline meta-learning to prepare for subsequent task
learning. We find that CoMPS outperforms prior continual learning and
off-policy meta-reinforcement methods on several sequences of challenging
continuous control tasks.
- Abstract(参考訳): 逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
この設定では、エージェントの目標は、あらゆるタスクに対して素早く高い報酬を達成することである。
事前のメタ強化学習アルゴリズムは、新しいタスクの獲得を加速する有望な結果を示している。
しかし、トレーニング中にすべてのタスクにアクセスする必要がある。
過去の経験を新しいタスクに移すだけでなく、私たちの目標は学習を学習する継続的強化学習アルゴリズムを考案し、以前のタスクでの経験を利用して新しいタスクをより迅速に学ぶことです。
本稿では,従来のタスクを再考することなく,各タスクに対して段階的にメタトレーニングを行うことにより,この制限を除去する手法であるCoMPSを提案する。
CoMPSは連続的に2つのサブルーチンを繰り返す: RLを使って新しいタスクを学習し、RLからの経験を使って完全にオフラインのメタ学習を行い、その後のタスク学習に備える。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の連続学習や外部のメタ強化手法よりも優れていた。
関連論文リスト
- Continual Task Allocation in Meta-Policy Network via Sparse Prompting [42.386912478509814]
タスクの連続を継続的に学習することで、一般化可能なメタ政治の訓練方法を示す。
スパース・プロンプティング(CoTASP)による連続タスク割当(Continual Task Allocation)"で対処する。
実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性トレードオフを達成する。
論文 参考訳(メタデータ) (2023-05-29T03:36:32Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Online Fast Adaptation and Knowledge Accumulation: a New Approach to
Continual Learning [74.07455280246212]
継続的な学習は、新しいタスクに適応しながら、以前のタスクを忘れずにタスクの流れから学ぶエージェントを研究する。
この新たなシナリオでは、現在の連続学習、メタ学習、メタ連続学習、および連続メタ学習技術が失敗することを示します。
本稿では,このシナリオの強力なベースラインとして,人気のあるMAMLアルゴリズムのオンライン拡張であるContinual-MAMLを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:47:16Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。