論文の概要: MotuBrain: An Advanced World Action Model for Robot Control
- arxiv url: http://arxiv.org/abs/2604.27792v2
- Date: Fri, 01 May 2026 08:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.935567
- Title: MotuBrain: An Advanced World Action Model for Robot Control
- Title(参考訳): MotuBrain:ロボット制御のための高度な世界行動モデル
- Authors: MotuBrain Team, Chendong Xiang, Fan Bao, Haitian Liu, Hengkai Tan, Hongzhe Bi, James Li, Jiabao Liu, Jingrui Pang, Kiro Jing, Louis Liu, Mengchen Cai, Rongxu Cui, Ruowen Zhao, Runqing Wang, Shuhe Huang, Yao Feng, Yinze Rong, Zeyuan Wang, Jun Zhu,
- Abstract要約: We present MotuBrain, a unified World Action Model that jointly model video and action under a UniDiffuser formulation。
単一のモデルは、ポリシー学習、世界モデリング、ビデオ生成、逆ダイナミクス、共同ビデオアクション予測をサポートする。
Motus上に構築されているMotuBrainは、言語と相互作用の結合を強くするための独立したテキストストリームである、統一されたマルチビューモデリングも導入している。
我々の推論スタックは、ステップの削減、コンパイル、FP8量子化、DiTキャッシュ、V2Aスタイルのアクション専用推論、リアルタイムチャンククループ実行を組み合わせたものです。
- 参考スコア(独自算出の注目度): 23.733029557644354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models generalize semantically well but often lack fine-grained modeling of world dynamics. We present MotuBrain, a unified World Action Model that jointly models video and action under a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture. A single model supports policy learning, world modeling, video generation, inverse dynamics, and joint video-action prediction, while scaling to heterogeneous multimodal data such as video-only, task-agnostic, and cross-embodiment robot data. Building on Motus, MotuBrain further introduces unified multiview modeling, an independent text stream for stronger language-action coupling, a shared cross-embodiment action representation, and an efficient post-training and deployment recipe for long-horizon real-world control. Our inference stack combines step reduction, compilation, FP8 quantization, DiT caching, V2A-style action-only inference, and real-time chunked closed-loop execution, achieving over 50x speedup over a naive baseline and up to 11 Hz inference. Experimentally, MotuBrain achieves 95.8% and 96.1% average success on RoboTwin 2.0 under clean and randomized settings, respectively, attains the strongest reported EWMScore in our WorldArena comparison, and adapts to new humanoid embodiments with only 50--100 trajectories. These results show that unified world action models can scale in generality, predictive accuracy, and real-world deployability.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは意味論的によく一般化されるが、世界力学のきめ細かいモデリングを欠いていることが多い。
We present MotuBrain, a unified World Action Model that togetherly model video and action under a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture。
単一のモデルは、ポリシー学習、世界モデリング、ビデオ生成、逆ダイナミクス、共同ビデオアクション予測をサポートし、一方、ビデオのみ、タスク非依存、クロスエボディメントロボットデータなどの異種マルチモーダルデータにスケーリングする。
Motus上に構築されたMotuBrainは、さらに統合されたマルチビューモデリング、より強力な言語-アクション結合のための独立したテキストストリーム、共有されたクロスエボディメントアクション表現、長距離現実世界制御のための効率的なポストトレーニングとデプロイメントのレシピを導入している。
我々の推論スタックは、ステップリダクション、コンパイル、FP8量子化、DiTキャッシュ、V2Aスタイルのアクションオンリー推論、およびリアルタイムのチャンクククループ実行を組み合わせ、単純なベースライン上で50倍以上の高速化と最大11Hzの推論を実現しています。
実験的に、MotuBrainは、クリーンな設定とランダムな設定で、RoboTwin 2.0で平均95.8%、96.1%の成功を達成し、WorldArena比較で報告された最強のEWMScoreを獲得し、50-100の軌道しか持たない新しいヒューマノイドエボディメントに適応する。
これらの結果は、統一された世界行動モデルが、一般性、予測精度、実世界の展開可能性においてスケール可能であることを示している。
関連論文リスト
- DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning [44.543763428623976]
DriveDreamer-Policyは、深度生成、将来のビデオ生成、モーションプランニングを統合した統合運転ワールドアクションモデルである。
提案したモデルは、モジュラリティと遅延制御性を維持しながら、より一貫性のある未来とより情報のある駆動動作を生成する。
論文 参考訳(メタデータ) (2026-04-02T08:33:18Z) - Motus: A Unified Latent Action World Model [31.62340897751899]
我々は、既存の一般的な事前学習モデルとリッチで共有可能な動き情報を活用する統合潜在行動世界モデルであるMotusを提案する。
実験により、Motusはシミュレーションと実世界のシナリオの両方において最先端の手法に対して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-12-15T06:58:40Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。