論文の概要: MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.09859v1
- Date: Thu, 14 Mar 2024 20:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:15:39.796532
- Title: MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning
- Title(参考訳): MAMBA:メタ強化学習のための効果的な世界モデルアプローチ
- Authors: Zohar Rimon, Tom Jurgenson, Orr Krupnik, Gilad Adler, Aviv Tamar,
- Abstract要約: 本稿では,メタRL法とメタRL法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。
本稿では,メタRLベンチマークドメインに対するアプローチの有効性を実証し,より優れたサンプル効率でより高いリターンが得られることを示す。
さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
- 参考スコア(独自算出の注目度): 18.82398325614491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning (meta-RL) is a promising framework for tackling challenging domains requiring efficient exploration. Existing meta-RL algorithms are characterized by low sample efficiency, and mostly focus on low-dimensional task distributions. In parallel, model-based RL methods have been successful in solving partially observable MDPs, of which meta-RL is a special case. In this work, we leverage this success and propose a new model-based approach to meta-RL, based on elements from existing state-of-the-art model-based and meta-RL methods. We demonstrate the effectiveness of our approach on common meta-RL benchmark domains, attaining greater return with better sample efficiency (up to $15\times$) while requiring very little hyperparameter tuning. In addition, we validate our approach on a slate of more challenging, higher-dimensional domains, taking a step towards real-world generalizing agents.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、効率的な探索を必要とする挑戦的なドメインに取り組むための有望なフレームワークである。
既存のメタRLアルゴリズムは、サンプル効率が低く、主に低次元のタスク分布に焦点を当てている。
並行して、モデルベースRL法は部分的に観測可能なMDPの解法に成功しており、メタRLは特別な場合である。
本研究では、この成功を活用し、既存の最先端モデルベースおよびメタRL手法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。
提案手法の有効性をメタRLベンチマークドメインに適用し,サンプル効率が向上し(最大15\times$)、ハイパーパラメータチューニングが極めて少ないことを実証した。
さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
関連論文リスト
- On Task-Relevant Loss Functions in Meta-Reinforcement Learning and
Online LQR [9.355903533901023]
本稿では,タスク指向方式でシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。
メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。
論文 参考訳(メタデータ) (2023-12-09T04:52:28Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments [10.360491332190433]
Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。
本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。
また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-26T22:01:12Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Meta-Model-Based Meta-Policy Optimization [19.468989399627638]
性能保証を伴うモデルベースメタ強化学習(RL)手法を提案する。
連続制御ベンチマークにおいて,M3POが既存のメタRL法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。