論文の概要: Curriculum in Gradient-Based Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.07956v1
- Date: Wed, 19 Feb 2020 01:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 12:40:51.227827
- Title: Curriculum in Gradient-Based Meta-Reinforcement Learning
- Title(参考訳): グラデーションに基づくメタ強化学習のカリキュラム
- Authors: Bhairav Mehta, Tristan Deleu, Sharath Chandra Raparthy, Chris J. Pal,
Liam Paull
- Abstract要約: 勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
- 参考スコア(独自算出の注目度): 10.447238563837173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based meta-learners such as Model-Agnostic Meta-Learning (MAML) have
shown strong few-shot performance in supervised and reinforcement learning
settings. However, specifically in the case of meta-reinforcement learning
(meta-RL), we can show that gradient-based meta-learners are sensitive to task
distributions. With the wrong curriculum, agents suffer the effects of
meta-overfitting, shallow adaptation, and adaptation instability. In this work,
we begin by highlighting intriguing failure cases of gradient-based meta-RL and
show that task distributions can wildly affect algorithmic outputs, stability,
and performance. To address this problem, we leverage insights from recent
literature on domain randomization and propose meta Active Domain Randomization
(meta-ADR), which learns a curriculum of tasks for gradient-based meta-RL in a
similar as ADR does for sim2real transfer. We show that this approach induces
more stable policies on a variety of simulated locomotion and navigation tasks.
We assess in- and out-of-distribution generalization and find that the learned
task distributions, even in an unstructured task space, greatly improve the
adaptation performance of MAML. Finally, we motivate the need for better
benchmarking in meta-RL that prioritizes \textit{generalization} over
single-task adaption performance.
- Abstract(参考訳): Model-Agnostic Meta-Learning (MAML) のようなグラディエントベースのメタラーナーは、教師付きおよび強化学習設定において強力な数ショット性能を示した。
しかし,特にメタ強化学習(meta-RL)では,勾配に基づくメタラーナーがタスク分布に敏感であることを示すことができる。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を受けます。
本稿では,勾配に基づくメタrlの興味深い失敗事例に注目し,タスク分布がアルゴリズムのアウトプット,安定性,性能に大きく影響することを示す。
この問題に対処するために,ドメインランダム化に関する最近の文献の知見を活用し,ADRがsim2real転送を行うのと同じように,勾配ベースメタRLのタスクのカリキュラムを学習するメタアクティブドメインランダム化(Meta-ADR)を提案する。
このアプローチは,様々なロコモーションおよびナビゲーションタスクにおいて,より安定したポリシを誘導することを示す。
我々は,非構造化タスク空間においても,学習タスク分布がMAMLの適応性能を大幅に向上することを確認した。
最後に、シングルタスク適応性能よりも \textit{generalization}を優先するmeta-rlのベンチマーク改善の必要性を動機付けます。
関連論文リスト
- Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning [61.8360232713375]
低リソースコモンセンス推論のための強化型マルチソースメタトランスファー学習フレームワーク(Meta-RTL)を提案する。
本稿では,メタトランスファー学習において,対象タスクに対するタスクの寄与を動的に推定する手法を提案する。
実験の結果,Meta-RTLは,強いベースラインと以前のタスク選択戦略を大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-27T18:22:22Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Transfer Meta-Learning: Information-Theoretic Bounds and Information
Meta-Risk Minimization [47.7605527786164]
メタ学習は、複数の関連するタスクからのデータを観察し、誘導バイアスを自動的に推論する。
本稿では,メタテスト中に目標タスク環境からタスクを抽出するトランスファーメタラーニングの問題を紹介する。
論文 参考訳(メタデータ) (2020-11-04T12:55:43Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。