Fugu-MT 論文翻訳(概要): Meta-Model-Based Meta-Policy Optimization

論文の概要: Meta-Model-Based Meta-Policy Optimization

arxiv url: http://arxiv.org/abs/2006.02608v5
Date: Mon, 11 Oct 2021 11:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 09:16:11.620277
Title: Meta-Model-Based Meta-Policy Optimization
Title（参考訳）: メタモデルに基づくメタポリシー最適化
Authors: Takuya Hiraoka, Takahisa Imagawa, Voot Tangkaratt, Takayuki Osa, Takashi Onishi, Yoshimasa Tsuruoka
Abstract要約: 性能保証を伴うモデルベースメタ強化学習(RL)手法を提案する。連続制御ベンチマークにおいて,M3POが既存のメタRL法より優れていることを示す。
参考スコア（独自算出の注目度）: 19.468989399627638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based meta-reinforcement learning (RL) methods have recently been shown to be a promising approach to improving the sample efficiency of RL in multi-task settings. However, the theoretical understanding of those methods is yet to be established, and there is currently no theoretical guarantee of their performance in a real-world environment. In this paper, we analyze the performance guarantee of model-based meta-RL methods by extending the theorems proposed by Janner et al. (2019). On the basis of our theoretical results, we propose Meta-Model-Based Meta-Policy Optimization (M3PO), a model-based meta-RL method with a performance guarantee. We demonstrate that M3PO outperforms existing meta-RL methods in continuous-control benchmarks.
Abstract（参考訳）: モデルベースメタ強化学習(RL)手法は近年,マルチタスク環境におけるRLのサンプル効率向上に有望なアプローチであることが示されている。しかし,これらの手法の理論的理解はまだ確立されておらず,実環境における性能に関する理論的保証はない。本稿では,Janner et al. (2019) の定理を拡張し,モデルに基づくメタRL法の性能保証について分析する。そこで,本論文では,メタモデルに基づくメタポリシー最適化(m3po)を提案する。連続制御ベンチマークにおいて,M3POが既存のメタRL法より優れていることを示す。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。 KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。 MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-15T01:09:23Z)
Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-13T05:17:58Z)
Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文参考訳（メタデータ） (2024-03-21T03:42:39Z)
MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning [18.82398325614491]
本稿では,メタRL法とメタRL法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。本稿では,メタRLベンチマークドメインに対するアプローチの有効性を実証し,より優れたサンプル効率でより高いリターンが得られることを示す。さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
論文参考訳（メタデータ） (2024-03-14T20:40:36Z)
Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文参考訳（メタデータ） (2023-07-24T16:52:31Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文参考訳（メタデータ） (2023-04-03T17:59:58Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
On the Convergence Theory of Meta Reinforcement Learning with Personalized Policies [26.225293232912716]
本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-09-21T02:27:56Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。 MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文参考訳（メタデータ） (2022-02-07T04:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。