論文の概要: Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning
- arxiv url: http://arxiv.org/abs/2305.00286v1
- Date: Sat, 29 Apr 2023 15:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:02:32.254475
- Title: Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning
- Title(参考訳): 自己監督型タスク表現学習に基づくメタ強化学習
- Authors: Mingyang Wang, Zhenshan Bing, Xiangtong Yao, Shuai Wang, Hang Su,
Chenguang Yang, Kai Huang and Alois Knoll
- Abstract要約: MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
- 参考スコア(独自算出の注目度): 23.45043290237396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning enables artificial agents to learn from related
training tasks and adapt to new tasks efficiently with minimal interaction
data. However, most existing research is still limited to narrow task
distributions that are parametric and stationary, and does not consider
out-of-distribution tasks during the evaluation, thus, restricting its
application. In this paper, we propose MoSS, a context-based Meta-reinforcement
learning algorithm based on Self-Supervised task representation learning to
address this challenge. We extend meta-RL to broad non-parametric task
distributions which have never been explored before, and also achieve
state-of-the-art results in non-stationary and out-of-distribution tasks.
Specifically, MoSS consists of a task inference module and a policy module. We
utilize the Gaussian mixture model for task representation to imitate the
parametric and non-parametric task variations. Additionally, our online
adaptation strategy enables the agent to react at the first sight of a task
change, thus being applicable in non-stationary tasks. MoSS also exhibits
strong generalization robustness in out-of-distributions tasks which benefits
from the reliable and robust task representation. The policy is built on top of
an off-policy RL algorithm and the entire network is trained completely
off-policy to ensure high sample efficiency. On MuJoCo and Meta-World
benchmarks, MoSS outperforms prior works in terms of asymptotic performance,
sample efficiency (3-50x faster), adaptation efficiency, and generalization
robustness on broad and diverse task distributions.
- Abstract(参考訳): メタ強化学習により、人工知能は関連するトレーニングタスクから学び、最小限のインタラクションデータで新しいタスクに効率的に適応することができる。
しかし、既存の研究の多くは、まだパラメトリックで定常的な狭いタスク分布に限られており、評価中に配布外タスクを考慮せず、適用を制限している。
本稿では,この課題に対処するために,自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムMOSSを提案する。
メタRLは、これまで探索されたことのない幅広い非パラメトリックタスク分布に拡張し、非定常および非分布タスクにおける最先端結果を達成する。
具体的には、MOSSはタスク推論モジュールとポリシーモジュールで構成される。
タスク表現にはガウス混合モデルを用いてパラメトリックおよび非パラメトリックタスクのバリエーションを模倣する。
さらに、我々のオンライン適応戦略により、エージェントはタスク変更の第一の視点で反応し、非定常的なタスクに適用できる。
MoSSはまた、信頼性と堅牢なタスク表現の恩恵を受けるアウト・オブ・ディストリビューションタスクにおいて、強力な一般化ロバスト性を示す。
ポリシーはオフ・ポリシーrlアルゴリズム上に構築されており、ネットワーク全体が完全にオフ・ポリシーに訓練され、高いサンプル効率が保証される。
MuJoCo と Meta-World のベンチマークでは、MoSS は漸近的性能、サンプル効率(3-50倍高速)、適応効率、広範囲で多様なタスク分布に対する一般化ロバスト性といった点において先行研究より優れていた。
関連論文リスト
- Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning [61.8360232713375]
低リソースコモンセンス推論のための強化型マルチソースメタトランスファー学習フレームワーク(Meta-RTL)を提案する。
本稿では,メタトランスファー学習において,対象タスクに対するタスクの寄与を動的に推定する手法を提案する。
実験の結果,Meta-RTLは,強いベースラインと以前のタスク選択戦略を大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-27T18:22:22Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Towards Task Sampler Learning for Meta-Learning [37.02030832662183]
メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。
タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。
本稿では、経験的および理論的分析を通して、この見解に挑戦する。
論文 参考訳(メタデータ) (2023-07-18T01:53:18Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Learning to generate imaginary tasks for improving generalization in
meta-learning [12.635773307074022]
既存のベンチマークにおけるメタ学習の成功は、メタトレーニングタスクの分布がメタテストタスクをカバーするという仮定に基づいて予測される。
最近のソリューションではメタトレーニングタスクの強化が追求されているが、正確なタスクと十分な想像上のタスクの両方を生成することは、まだ未解決の問題である。
本稿では,タスクアップサンプリングネットワークを通じてタスク表現からメタ学習タスクをアップサンプリングする手法を提案する。さらに,タスクアップサンプリング(ATU)と呼ばれるアプローチにより,タスクを最大化することで,最新のメタラーナーに最大限貢献できるタスクを生成する。
論文 参考訳(メタデータ) (2022-06-09T08:21:05Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。