論文の概要: MinD: Unified Visual Imagination and Control via Hierarchical World Models
- arxiv url: http://arxiv.org/abs/2506.18897v1
- Date: Mon, 23 Jun 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.119047
- Title: MinD: Unified Visual Imagination and Control via Hierarchical World Models
- Title(参考訳): MinD:階層的世界モデルによる統一されたビジュアルイマジネーションと制御
- Authors: Xiaowei Chi, Kuangzhi Ge, Jiaming Liu, Siyuan Zhou, Peidong Jia, Zichen He, Yuzhen Liu, Tingguang Li, Lei Han, Sirui Han, Shanghang Zhang, Yike Guo,
- Abstract要約: ビデオ生成モデル(VGM)は、ロボット工学における統一世界モデリングのための有望な経路を提供する。
Manipulate in Dream (MinD) は階層的拡散に基づく世界モデルフレームワークであり、視覚言語操作にデュアルシステム設計を採用する。
MinDは、VGMを低周波で実行し、リアルタイムインタラクションに高周波拡散ポリシを活用しながら、映像予測特徴を抽出する。
- 参考スコア(独自算出の注目度): 32.08769443927576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models (VGMs) offer a promising pathway for unified world modeling in robotics by integrating simulation, prediction, and manipulation. However, their practical application remains limited due to (1) slowgeneration speed, which limits real-time interaction, and (2) poor consistency between imagined videos and executable actions. To address these challenges, we propose Manipulate in Dream (MinD), a hierarchical diffusion-based world model framework that employs a dual-system design for vision-language manipulation. MinD executes VGM at low frequencies to extract video prediction features, while leveraging a high-frequency diffusion policy for real-time interaction. This architecture enables low-latency, closed-loop control in manipulation with coherent visual guidance. To better coordinate the two systems, we introduce a video-action diffusion matching module (DiffMatcher), with a novel co-training strategy that uses separate schedulers for each diffusion model. Specifically, we introduce a diffusion-forcing mechanism to DiffMatcher that aligns their intermediate representations during training, helping the fast action model better understand video-based predictions. Beyond manipulation, MinD also functions as a world simulator, reliably predicting task success or failure in latent space before execution. Trustworthy analysis further shows that VGMs can preemptively evaluate task feasibility and mitigate risks. Extensive experiments across multiple benchmarks demonstrate that MinD achieves state-of-the-art manipulation (63%+) in RL-Bench, advancing the frontier of unified world modeling in robotics.
- Abstract(参考訳): ビデオ生成モデル(VGM)は、シミュレーション、予測、操作を統合することで、ロボット工学における統一世界モデリングのための有望な経路を提供する。
しかし,1) リアルタイムの対話を制限し,(2) 想像ビデオと実行可能な動作の整合性に乏しいため,実用的応用は依然として限られている。
これらの課題に対処するために、視覚言語操作にデュアルシステム設計を用いる階層的拡散に基づく世界モデルフレームワークであるManipulate in Dream (MinD)を提案する。
MinDは、VGMを低周波で実行し、リアルタイムインタラクションに高周波拡散ポリシを活用しながら、映像予測特徴を抽出する。
このアーキテクチャは、コヒーレントな視覚誘導による操作において、低レイテンシでクローズドループ制御を可能にする。
2つのシステムをよりよく調整するために,各拡散モデルに個別のスケジューラを使用する新しい協調学習戦略により,ビデオアクション拡散マッチングモジュール(DiffMatcher)を導入する。
具体的には、DiffMatcherに拡散強制機構を導入し、トレーニング中に中間表現を整列させ、高速アクションモデルがビデオベースの予測をよりよく理解できるようにする。
操作以外にも、MinDは世界シミュレータとしても機能し、実行前にタスクの成功や遅延スペースの失敗を確実に予測する。
信頼できる分析は、VGMが事前にタスクの実現可能性を評価し、リスクを軽減できることを示している。
複数のベンチマークにわたる大規模な実験は、MinDがRL-Benchで最先端の操作(63%以上)を達成し、ロボット工学における統一世界モデリングのフロンティアを前進させることを示した。
関連論文リスト
- Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。