論文の概要: Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2003.01373v2
- Date: Mon, 2 May 2022 09:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 21:40:52.166441
- Title: Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning
- Title(参考訳): 効率的なメタ強化学習のためのコンテキスト認識タスク推論
- Authors: Haozhe Wang, Jiale Zhou, Xuming He
- Abstract要約: 本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
- 参考スコア(独自算出の注目度): 29.125234093368732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent success of deep network-based Reinforcement Learning (RL), it
remains elusive to achieve human-level efficiency in learning novel tasks.
While previous efforts attempt to address this challenge using meta-learning
strategies, they typically suffer from sampling inefficiency with on-policy RL
algorithms or meta-overfitting with off-policy learning. In this work, we
propose a novel meta-RL strategy to address those limitations. In particular,
we decompose the meta-RL problem into three sub-tasks, task-exploration,
task-inference and task-fulfillment, instantiated with two deep network agents
and a task encoder. During meta-training, our method learns a task-conditioned
actor network for task-fulfillment, an explorer network with a self-supervised
reward shaping that encourages task-informative experiences in
task-exploration, and a context-aware graph-based task encoder for task
inference. We validate our approach with extensive experiments on several
public benchmarks and the results show that our algorithm effectively performs
exploration for task inference, improves sample efficiency during both training
and testing, and mitigates the meta-overfitting problem.
- Abstract(参考訳): 最近のディープネットワークベース強化学習(rl)の成功にもかかわらず、新しいタスクの学習において人間レベルの効率を達成することはいまだに不可能である。
これまでの試みでは、メタラーニング戦略を使ってこの問題に対処しようとしたが、通常は、オンポリシーrlアルゴリズムによる非効率サンプリングや、オフポリシー学習によるメタオーバーフィットに苦しむ。
本研究では,これらの制約に対処するメタRL戦略を提案する。
特に,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解し,2つのディープネットワークエージェントとタスクエンコーダでインスタンス化する。
メタトレーニング中,タスク充足のためのタスク条件付きアクターネットワーク,タスク探索におけるタスクインフォーマティブ体験を促進する自己教師付き報酬形成のためのエクスプローラーネットワーク,タスク推論のためのコンテキスト対応グラフベースタスクエンコーダを学習する。
その結果,提案手法はタスク推論の探索を効果的に行うことができ,トレーニングとテストの両方においてサンプル効率が向上し,メタオーバーフィッティング問題を軽減できることがわかった。
関連論文リスト
- Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。