論文の概要: Motus: A Unified Latent Action World Model
- arxiv url: http://arxiv.org/abs/2512.13030v1
- Date: Mon, 15 Dec 2025 06:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.558402
- Title: Motus: A Unified Latent Action World Model
- Title(参考訳): Motus: 統合された潜在アクションワールドモデル
- Authors: Hongzhe Bi, Hengkai Tan, Shenghao Xie, Zeyuan Wang, Shuhe Huang, Haitian Liu, Ruowen Zhao, Yao Feng, Chendong Xiang, Yinze Rong, Hongyan Zhao, Hanyu Liu, Zhizhong Su, Lei Ma, Hang Su, Jun Zhu,
- Abstract要約: 我々は、既存の一般的な事前学習モデルとリッチで共有可能な動き情報を活用する統合潜在行動世界モデルであるMotusを提案する。
実験により、Motusはシミュレーションと実世界のシナリオの両方において最先端の手法に対して優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 31.62340897751899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While a general embodied agent must function as a unified system, current methods are built on isolated models for understanding, world modeling, and control. This fragmentation prevents unifying multimodal generative capabilities and hinders learning from large-scale, heterogeneous data. In this paper, we propose Motus, a unified latent action world model that leverages existing general pretrained models and rich, sharable motion information. Motus introduces a Mixture-of-Transformer (MoT) architecture to integrate three experts (i.e., understanding, video generation, and action) and adopts a UniDiffuser-style scheduler to enable flexible switching between different modeling modes (i.e., world models, vision-language-action models, inverse dynamics models, video generation models, and video-action joint prediction models). Motus further leverages the optical flow to learn latent actions and adopts a recipe with three-phase training pipeline and six-layer data pyramid, thereby extracting pixel-level "delta action" and enabling large-scale action pretraining. Experiments show that Motus achieves superior performance against state-of-the-art methods in both simulation (a +15% improvement over X-VLA and a +45% improvement over Pi0.5) and real-world scenarios(improved by +11~48%), demonstrating unified modeling of all functionalities and priors significantly benefits downstream robotic tasks.
- Abstract(参考訳): 一般的な実施エージェントは統合システムとして機能しなければならないが、現在の手法は理解、世界モデリング、制御のための独立したモデルに基づいて構築されている。
この断片化は、マルチモーダル生成能力を統一することを防ぐとともに、大規模な異種データからの学習を妨げる。
本稿では,既存の一般的な事前学習モデルとリッチで共有可能な動作情報を活用する,統合潜在行動世界モデルであるMotusを提案する。
Motusは、Mixture-of-Transformer (MoT)アーキテクチャを導入し、3つのエキスパート(すなわち、理解、ビデオ生成、アクション)を統合し、UniDiffuserスタイルのスケジューラを採用して、異なるモデリングモード(ワールドモデル、ビジョン言語-アクションモデル、逆ダイナミクスモデル、ビデオ生成モデル、ビデオアクション共同予測モデル)間の柔軟な切り替えを可能にする。
Motusはさらに光学フローを活用して潜伏動作を学習し、三相トレーニングパイプラインと6層データピラミッドによるレシピを採用し、ピクセルレベルのデルタアクションを抽出し、大規模なアクション事前トレーニングを可能にする。
実験により、Motusは、シミュレーション(X-VLAよりも15%改善、Pi0.5より45%改善)と実世界のシナリオ(+11〜48%改善)の両方において、最先端の手法に対して優れた性能を達成し、すべての機能と事前の統一モデリングを実証し、下流ロボティクスのタスクに有益であることを示した。
関連論文リスト
- UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Show-o2: Improved Native Unified Multimodal Models [57.34173415412808]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。
3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文 参考訳(メタデータ) (2025-06-18T15:39:15Z) - Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning [11.762260966376125]
モーションダイナミクスモデルは、効率的なスキル獲得と効果的なプランニングに不可欠である。
本稿では,脳神経運動シミュレータ (MoSim) を紹介する。
MoSimは物理状態予測において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-09T17:59:32Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。