論文の概要: Meta-Model-Based Meta-Policy Optimization
- arxiv url: http://arxiv.org/abs/2006.02608v5
- Date: Mon, 11 Oct 2021 11:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:16:11.620277
- Title: Meta-Model-Based Meta-Policy Optimization
- Title(参考訳): メタモデルに基づくメタポリシー最適化
- Authors: Takuya Hiraoka, Takahisa Imagawa, Voot Tangkaratt, Takayuki Osa,
Takashi Onishi, Yoshimasa Tsuruoka
- Abstract要約: 性能保証を伴うモデルベースメタ強化学習(RL)手法を提案する。
連続制御ベンチマークにおいて,M3POが既存のメタRL法より優れていることを示す。
- 参考スコア(独自算出の注目度): 19.468989399627638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based meta-reinforcement learning (RL) methods have recently been shown
to be a promising approach to improving the sample efficiency of RL in
multi-task settings. However, the theoretical understanding of those methods is
yet to be established, and there is currently no theoretical guarantee of their
performance in a real-world environment. In this paper, we analyze the
performance guarantee of model-based meta-RL methods by extending the theorems
proposed by Janner et al. (2019). On the basis of our theoretical results, we
propose Meta-Model-Based Meta-Policy Optimization (M3PO), a model-based meta-RL
method with a performance guarantee. We demonstrate that M3PO outperforms
existing meta-RL methods in continuous-control benchmarks.
- Abstract(参考訳): モデルベースメタ強化学習(RL)手法は近年,マルチタスク環境におけるRLのサンプル効率向上に有望なアプローチであることが示されている。
しかし,これらの手法の理論的理解はまだ確立されておらず,実環境における性能に関する理論的保証はない。
本稿では,Janner et al. (2019) の定理を拡張し,モデルに基づくメタRL法の性能保証について分析する。
そこで,本論文では,メタモデルに基づくメタポリシー最適化(m3po)を提案する。
連続制御ベンチマークにおいて,M3POが既存のメタRL法より優れていることを示す。
関連論文リスト
- Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning [18.82398325614491]
本稿では,メタRL法とメタRL法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。
本稿では,メタRLベンチマークドメインに対するアプローチの有効性を実証し,より優れたサンプル効率でより高いリターンが得られることを示す。
さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-14T20:40:36Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies [26.225293232912716]
本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。
タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-21T02:27:56Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。