論文の概要: Improving Generalization in Meta-RL with Imaginary Tasks from Latent
Dynamics Mixture
- arxiv url: http://arxiv.org/abs/2105.13524v1
- Date: Fri, 28 May 2021 00:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:33:32.245353
- Title: Improving Generalization in Meta-RL with Imaginary Tasks from Latent
Dynamics Mixture
- Title(参考訳): Imaginary Tasks from Latent Dynamics Mixture を用いたメタRLの一般化
- Authors: Suyoung Lee and Sae-Young Chung
- Abstract要約: 本稿では,学習された潜伏ダイナミクスの混合から生成した想像的タスクで強化学習エージェントを訓練する潜在ダイナミクス混合(LDM)を提案する。
LDMは、グリッドワールドナビゲーションとMuJoCoタスクのテストリターンにおいて、標準的なメタRLメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 21.37172425985146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization ability of most meta-reinforcement learning (meta-RL)
methods is largely limited to test tasks that are sampled from the same
distribution used to sample training tasks. To overcome the limitation, we
propose Latent Dynamics Mixture (LDM) that trains a reinforcement learning
agent with imaginary tasks generated from mixtures of learned latent dynamics.
By training a policy on mixture tasks along with original training tasks, LDM
allows the agent to prepare for unseen test tasks during training and prevents
the agent from overfitting the training tasks. LDM significantly outperforms
standard meta-RL methods in test returns on the gridworld navigation and MuJoCo
tasks where we strictly separate the training task distribution and the test
task distribution.
- Abstract(参考訳): ほとんどのメタ強化学習(meta-RL)法の一般化能力は、トレーニングタスクのサンプリングに使用される同じ分布からサンプリングされるテストタスクに大きく制限されている。
この制限を克服するために,学習された潜伏ダイナミクスの混合から生じる想像的なタスクで強化学習エージェントを訓練する潜在ダイナミクス混合(LDM)を提案する。
ldmは、元のトレーニングタスクと混合タスクのポリシーを訓練することで、トレーニング中に見過ごされないテストタスクの準備をエージェントに許可し、エージェントがトレーニングタスクを過度に満たさないようにする。
LDM はグリッドワールドナビゲーションや MuJoCo タスクにおいて,トレーニングタスク分布とテストタスク分布を厳密に分離するテストリターンにおいて,標準的なメタRL メソッドよりも大幅に優れています。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Learning to generate imaginary tasks for improving generalization in
meta-learning [12.635773307074022]
既存のベンチマークにおけるメタ学習の成功は、メタトレーニングタスクの分布がメタテストタスクをカバーするという仮定に基づいて予測される。
最近のソリューションではメタトレーニングタスクの強化が追求されているが、正確なタスクと十分な想像上のタスクの両方を生成することは、まだ未解決の問題である。
本稿では,タスクアップサンプリングネットワークを通じてタスク表現からメタ学習タスクをアップサンプリングする手法を提案する。さらに,タスクアップサンプリング(ATU)と呼ばれるアプローチにより,タスクを最大化することで,最新のメタラーナーに最大限貢献できるタスクを生成する。
論文 参考訳(メタデータ) (2022-06-09T08:21:05Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling [0.0]
RMRL-GTS(Robost Meta Reinforcement Learning with Guided Task Sampling)は,スコアとエポックに基づいてタスクサンプリングを制限する効果的な手法であることを示す。
ロバストなメタRLを実現するためには、低得点のタスクを集中的にサンプリングするだけでなく、サンプリングすべきタスクのタスク領域の制限と拡張も必要である。
論文 参考訳(メタデータ) (2022-03-31T05:16:24Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Meta-Reinforcement Learning for Heuristic Planning [12.462608802359936]
メタ強化学習(Meta-Reinforcement Learning、Meta-RL)では、エージェントは、新しい、見えない、しかし関連するタスクの準備と学習のために一連のタスクで訓練される。
トレーニングタスクのセットが与えられた場合、トレーニングタスクが適切に選択された場合、学習はより迅速かつ効果的であることを示します。
本稿では,情報理論に基づくタスク選択アルゴリズムITTSを提案する。
論文 参考訳(メタデータ) (2021-07-06T13:25:52Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。