論文の概要: Mixture-of-World Models: Scaling Multi-Task Reinforcement Learning with Modular Latent Dynamics
- arxiv url: http://arxiv.org/abs/2602.01270v1
- Date: Sun, 01 Feb 2026 15:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.68584
- Title: Mixture-of-World Models: Scaling Multi-Task Reinforcement Learning with Modular Latent Dynamics
- Title(参考訳): 混合世界モデル:モジュール潜在ダイナミクスを用いたマルチタスク強化学習のスケーリング
- Authors: Boxuan Zhang, Weipu Zhang, Zhaohan Feng, Wei Xiao, Jian Sun, Jie Chen, Gang Wang,
- Abstract要約: タスク適応型視覚圧縮のためのモジュラー変分オートエンコーダを組み合わせたスケーラブルなアーキテクチャであるMixture-of-World Models (MoW)を紹介する。
Atari 100kベンチマークでは、26のAtariゲームでトレーニングされた1つのMoWエージェントが平均110.4%の人間正規化スコアを達成する。
MoWは3万の環境ステップで平均74.5%の成功率を達成した。
- 参考スコア(独自算出の注目度): 39.854659234873644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in multi-task reinforcement learning (MTRL) is achieving sample efficiency in visual domains where tasks exhibit substantial heterogeneity in both observations and dynamics. Model-based reinforcement learning offers a promising path to improved sample efficiency through world models, but standard monolithic architectures struggle to capture diverse task dynamics, resulting in poor reconstruction and prediction accuracy. We introduce Mixture-of-World Models (MoW), a scalable architecture that combines modular variational autoencoders for task-adaptive visual compression, a hybrid Transformer-based dynamics model with task-conditioned experts and a shared backbone, and a gradient-based task clustering strategy for efficient parameter allocation. On the Atari 100k benchmark, a single MoW agent trained once on 26 Atari games achieves a mean human-normalized score of 110.4%, competitive with the score of 114.2% achieved by STORM, an ensemble of 26 task-specific models, while using 50% fewer parameters. On Meta-World, MoW achieves a 74.5% average success rate within 300 thousand environment steps, establishing a new state of the art. These results demonstrate that MoW provides a scalable and parameter-efficient foundation for generalist world models.
- Abstract(参考訳): マルチタスク強化学習(MTRL)における基本的な課題は、観察と力学の両方において、タスクがかなりの不均一性を示す視覚領域において、サンプル効率を達成することである。
モデルに基づく強化学習は、世界モデルを通してサンプル効率を改善するための有望な道を提供するが、標準的なモノリシックアーキテクチャは多様なタスクのダイナミクスを捉えるのに苦労し、再構築や予測の精度が低下する。
タスク適応型ビジュアル圧縮のためのモジュラー変分オートエンコーダを組み合わせたスケーラブルなアーキテクチャであるMixture-of-World Models (MoW)、タスク条件付きエキスパートと共有バックボーンを備えたハイブリッドトランスフォーマーベースの動的モデル、効率的なパラメータ割り当てのための勾配ベースのタスククラスタリング戦略を紹介する。
Atari 100kベンチマークでは、26のAtariゲームでトレーニングされた1つのMoWエージェントが平均110.4%の人間正規化スコアを達成し、26のタスク固有のモデルのアンサンブルであるSTORMのスコア114.2%と競合する。
Meta-Worldでは、MoWは3万の環境ステップで平均74.5%の成功率を獲得し、新しい最先端技術を確立している。
これらの結果は、MoWが汎用的世界モデルのためのスケーラブルでパラメータ効率の良い基盤を提供することを示している。
関連論文リスト
- DyMoDreamer: World Modeling with Dynamic Modulation [52.27044216359359]
深層強化学習(DRL)における重要なボトルネックはサンプル非効率である。
動的変調機構を組み込んだ新しいアルゴリズムDyMoDreamerを導入し,動的特徴抽出の改善と時間情報の充実を図る。
実験によると、DyMoDreamer は Atari 100$k ベンチマークに新しい最先端のスコアをセットし、平均156.6$% の人間正規化スコアを設定できる。
論文 参考訳(メタデータ) (2025-09-29T13:54:42Z) - TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents [1.6574413179773757]
モデルに基づく強化学習における知識伝達に対する新しいアプローチを提案する。
提案手法は, 高容量マルチタスクエージェントをコンパクトなモデルに効率よく蒸留する。
われわれのアプローチは、実際の展開制限に対処し、大世界モデルにおける知識表現に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-02T15:38:49Z) - Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - HeteroTune: Efficient Federated Learning for Large Heterogeneous Models [35.53420882449293]
HeteroTuneは,限られた通信と予算の下で動作する大規模異種モデルのための,新しいファインチューニングパラダイムである。
我々の手法のコアは、異種モデルの柔軟かつ効率的な集約を可能にする新しいアーキテクチャであるDeMAにある。
We provide the theory analysis and empirical evidence shows that HeteroTune achieves state-of-the-art performance and efficiency across various task and model architectures。
論文 参考訳(メタデータ) (2024-11-25T09:58:51Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。