論文の概要: M3PO: Massively Multi-Task Model-Based Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.21782v1
- Date: Thu, 26 Jun 2025 21:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.015868
- Title: M3PO: Massively Multi-Task Model-Based Policy Optimization
- Title(参考訳): M3PO: 大規模マルチタスクモデルに基づくポリシー最適化
- Authors: Aditya Narendra, Dmitry Makarov, Aleksandr Panov,
- Abstract要約: 我々は、スケーラブルなモデルベース強化学習フレームワークであるM3PO(Massively Multi-Task Model-Based Policy Optimization)を紹介する。
M3POは、シングルタスク設定におけるサンプルの非効率とマルチタスクドメインにおける低一般化に対処する。
M3POは暗黙の世界モデルを統合し、観察の再構築なしにタスクの結果を予測するように訓練され、ハイブリッドな探索戦略が組み込まれている。
- 参考スコア(独自算出の注目度): 46.42871544295734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Massively Multi-Task Model-Based Policy Optimization (M3PO), a scalable model-based reinforcement learning (MBRL) framework designed to address sample inefficiency in single-task settings and poor generalization in multi-task domains. Existing model-based approaches like DreamerV3 rely on pixel-level generative models that neglect control-centric representations, while model-free methods such as PPO suffer from high sample complexity and weak exploration. M3PO integrates an implicit world model, trained to predict task outcomes without observation reconstruction, with a hybrid exploration strategy that combines model-based planning and model-free uncertainty-driven bonuses. This eliminates the bias-variance trade-off in prior methods by using discrepancies between model-based and model-free value estimates to guide exploration, while maintaining stable policy updates through a trust-region optimizer. M3PO provides an efficient and robust alternative to existing model-based policy optimization approaches and achieves state-of-the-art performance across multiple benchmarks.
- Abstract(参考訳): 我々は,M3PO(Massively Multi-Task Model-Based Policy Optimization)を導入し,マルチタスク領域におけるサンプルの非効率性や一般化の低さに対処するスケーラブルなモデルベース強化学習(MBRL)フレームワークを提案する。
DreamerV3のような既存のモデルベースのアプローチは、制御中心の表現を無視したピクセルレベルの生成モデルに依存している。
M3POは暗黙の世界モデルを統合し、観察再構成なしでタスク結果を予測するように訓練され、モデルベース計画とモデルフリーの不確実性駆動ボーナスを組み合わせたハイブリッド探索戦略を組み込んだ。
これにより、信頼領域オプティマイザによる安定したポリシー更新を維持しながら、モデルベースとモデルフリーな価値推定との相違を利用して、事前手法におけるバイアス分散トレードオフを排除できる。
M3POは、既存のモデルベースのポリシー最適化アプローチに代わる効率的で堅牢な代替手段を提供し、複数のベンチマークで最先端のパフォーマンスを実現する。
関連論文リスト
- Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization [0.0]
モデル反転攻撃は、訓練されたモデルからプライベートトレーニングデータを再構築しようとすることで、重大なプライバシーリスクを引き起こす。
我々は,ブラックボックスモデルインバージョン攻撃のための新しい強化学習ベースのフレームワークであるPPO-MIを提案する。
提案手法は, エージェントが生成モデルの潜伏空間をナビゲートし, プライベートトレーニングサンプルを再構成するマルコフ決定プロセスとして, インバージョンタスクを定式化する。
論文 参考訳(メタデータ) (2025-02-20T08:57:45Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。