論文の概要: MotuBrain: An Advanced World Action Model for Robot Control
- arxiv url: http://arxiv.org/abs/2604.27792v1
- Date: Thu, 30 Apr 2026 12:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.087353
- Title: MotuBrain: An Advanced World Action Model for Robot Control
- Title(参考訳): MotuBrain:ロボット制御のための高度な世界行動モデル
- Authors: MotuBrain Team, Chendong Xiang, Fan Bao, Haitian Liu, Hengkai Tan, Hongzhe Bi, James Li, Jiabao Liu, Jingrui Pang, Kiro Jing, Louis Liu, Mengchen Cai, Rongxu Cui, Ruowen Zhao, Runqing Wang, Shuhe Huang, Yao Feng, Yinze Rong, Zeyuan Wang, Jun Zhu,
- Abstract要約: ビデオとアクションを共同でモデル化する統合マルチモーダル生成モデルであるMotuBrainを提案する。
単一のモデルは、ポリシー学習、世界モデリング、ビデオ生成、逆ダイナミクス、共同ビデオアクション予測など、複数の推論モードをサポートする。
実世界の適用性を改善するため、MotuBrainは統一されたマルチビュー表現、明示的な言語-アクション結合、効率的な推論スタックを導入している。
- 参考スコア(独自算出の注目度): 23.733029557644354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models achieve strong semantic generalization but often lack fine-grained modeling of world dynamics. Recent work explores video generation models as a foundation for world modeling, leading to unified World Action Models (WAMs) that jointly model visual dynamics and actions. We present MotuBrain, a unified multimodal generative model that jointly models video and action under a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture. A single model supports multiple inference modes, including policy learning, world modeling, video generation, inverse dynamics, and joint video-action prediction, while scaling to heterogeneous multimodal data such as video-only and cross-embodiment robot data. To improve real-world applicability, MotuBrain introduces a unified multiview representation, explicit language-action coupling, and an efficient inference stack, achieving over 50x speedup for real-time deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは強力なセマンティックな一般化を実現するが、世界力学のきめ細かいモデリングを欠くことが多い。
近年の研究では、映像生成モデルを世界モデリングの基礎として探求し、視覚力学とアクションを共同でモデル化するワールドアクションモデル(WAM)を統合化している。
我々は、UniDiffuserの定式化の下でビデオとアクションを3ストリームのMixture-of-Transformersアーキテクチャで共同でモデル化する統合マルチモーダル生成モデルMotuBrainを提案する。
単一のモデルは、ポリシー学習、世界モデリング、ビデオ生成、逆ダイナミクス、共同ビデオアクション予測を含む複数の推論モードをサポートし、一方、ビデオ専用およびクロスエボディメントロボットデータのような異種マルチモーダルデータにスケーリングする。
実世界の適用性を改善するため、MotuBrainでは、統一されたマルチビュー表現、明示的な言語-アクション結合、効率的な推論スタックを導入し、リアルタイムデプロイメントの50倍以上のスピードアップを実現している。
関連論文リスト
- DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning [44.543763428623976]
DriveDreamer-Policyは、深度生成、将来のビデオ生成、モーションプランニングを統合した統合運転ワールドアクションモデルである。
提案したモデルは、モジュラリティと遅延制御性を維持しながら、より一貫性のある未来とより情報のある駆動動作を生成する。
論文 参考訳(メタデータ) (2026-04-02T08:33:18Z) - Motus: A Unified Latent Action World Model [31.62340897751899]
我々は、既存の一般的な事前学習モデルとリッチで共有可能な動き情報を活用する統合潜在行動世界モデルであるMotusを提案する。
実験により、Motusはシミュレーションと実世界のシナリオの両方において最先端の手法に対して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-12-15T06:58:40Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。