論文の概要: MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation
- arxiv url: http://arxiv.org/abs/2509.21797v2
- Date: Tue, 30 Sep 2025 07:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.3714
- Title: MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation
- Title(参考訳): MoWM:潜画像特徴変調による身体的計画のための世界混合モデル
- Authors: Yu Shang, Yangcheng Yu, Xin Zhang, Xin Jin, Haisheng Su, Wei Wu, Yong Li,
- Abstract要約: MoWMは、ハイブリッドワールドモデルから表現を融合して、具体的アクションプランニングを行う混合世界モデルフレームワークである。
提案手法では,ピクセル空間モデルから微細な視覚的特徴の抽出を誘導する,潜在モデルからの動き認識表現を高レベルな事前表現として利用する。
- 参考スコア(独自算出の注目度): 18.468025471225527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied action planning is a core challenge in robotics, requiring models to generate precise actions from visual observations and language instructions. While video generation world models are promising, their reliance on pixel-level reconstruction often introduces visual redundancies that hinder action decoding and generalization. Latent world models offer a compact, motion-aware representation, but overlook the fine-grained details critical for precise manipulation. To overcome these limitations, we propose MoWM, a mixture-of-world-model framework that fuses representations from hybrid world models for embodied action planning. Our approach uses motion-aware representations from a latent model as a high-level prior, which guides the extraction of fine-grained visual features from the pixel space model. This design allows MoWM to highlight the informative visual details needed for action decoding. Extensive evaluations on the CALVIN benchmark demonstrate that our method achieves state-of-the-art task success rates and superior generalization. We also provide a comprehensive analysis of the strengths of each feature space, offering valuable insights for future research in embodied planning. The code is available at: https://github.com/tsinghua-fib-lab/MoWM.
- Abstract(参考訳): 身体的行動計画(Embodied action planning)は、ロボット工学における中核的な課題であり、視覚的な観察や言語指示から正確な行動を生成するためにモデルを必要とする。
ビデオ生成の世界モデルは有望であるが、ピクセルレベルの再構成への依存は、アクションデコードや一般化を妨げる視覚的冗長性をもたらすことが多い。
ラテントワールドモデルはコンパクトでモーション対応の表現を提供するが、精密な操作に不可欠な細かな細部を見落としている。
これらの制約を克服するために,ハイブリッド世界モデルから表現を融合して具体的行動計画を行う混合世界モデルであるMoWMを提案する。
提案手法では,ピクセル空間モデルから微細な視覚的特徴の抽出を誘導する,潜在モデルからの動き認識表現を高レベルな事前表現として利用する。
この設計により、MoWMはアクションデコーディングに必要な情報的な視覚的詳細をハイライトすることができる。
CALVINベンチマークの大規模な評価は,本手法が最先端のタスク成功率と優れた一般化を実現することを示す。
また、各特徴空間の強みを包括的に分析し、具体的計画における将来の研究に有用な洞察を提供する。
コードはhttps://github.com/tsinghua-fib-lab/MoWM.comで公開されている。
関連論文リスト
- Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model [2.9509867426905925]
本稿では,視覚空間のモデルベース計画アルゴリズムFLIPについて述べる。
FLIPは、オブジェクト、ロボット、タスクに対して、一般的なアクション表現としてイメージフローを持つ長い水平プランを合成することができる。
さらに、合成されたフローとビデオプランは、ロボットの実行のための低レベル制御ポリシーのトレーニングをガイドすることができる。
論文 参考訳(メタデータ) (2024-12-11T10:17:00Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。