論文の概要: MinD: Unified Visual Imagination and Control via Hierarchical World Models
- arxiv url: http://arxiv.org/abs/2506.18897v1
- Date: Mon, 23 Jun 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.119047
- Title: MinD: Unified Visual Imagination and Control via Hierarchical World Models
- Title(参考訳): MinD:階層的世界モデルによる統一されたビジュアルイマジネーションと制御
- Authors: Xiaowei Chi, Kuangzhi Ge, Jiaming Liu, Siyuan Zhou, Peidong Jia, Zichen He, Yuzhen Liu, Tingguang Li, Lei Han, Sirui Han, Shanghang Zhang, Yike Guo,
- Abstract要約: ビデオ生成モデル(VGM)は、ロボット工学における統一世界モデリングのための有望な経路を提供する。
Manipulate in Dream (MinD) は階層的拡散に基づく世界モデルフレームワークであり、視覚言語操作にデュアルシステム設計を採用する。
MinDは、VGMを低周波で実行し、リアルタイムインタラクションに高周波拡散ポリシを活用しながら、映像予測特徴を抽出する。
- 参考スコア(独自算出の注目度): 32.08769443927576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models (VGMs) offer a promising pathway for unified world modeling in robotics by integrating simulation, prediction, and manipulation. However, their practical application remains limited due to (1) slowgeneration speed, which limits real-time interaction, and (2) poor consistency between imagined videos and executable actions. To address these challenges, we propose Manipulate in Dream (MinD), a hierarchical diffusion-based world model framework that employs a dual-system design for vision-language manipulation. MinD executes VGM at low frequencies to extract video prediction features, while leveraging a high-frequency diffusion policy for real-time interaction. This architecture enables low-latency, closed-loop control in manipulation with coherent visual guidance. To better coordinate the two systems, we introduce a video-action diffusion matching module (DiffMatcher), with a novel co-training strategy that uses separate schedulers for each diffusion model. Specifically, we introduce a diffusion-forcing mechanism to DiffMatcher that aligns their intermediate representations during training, helping the fast action model better understand video-based predictions. Beyond manipulation, MinD also functions as a world simulator, reliably predicting task success or failure in latent space before execution. Trustworthy analysis further shows that VGMs can preemptively evaluate task feasibility and mitigate risks. Extensive experiments across multiple benchmarks demonstrate that MinD achieves state-of-the-art manipulation (63%+) in RL-Bench, advancing the frontier of unified world modeling in robotics.
- Abstract(参考訳): ビデオ生成モデル(VGM)は、シミュレーション、予測、操作を統合することで、ロボット工学における統一世界モデリングのための有望な経路を提供する。
しかし,1) リアルタイムの対話を制限し,(2) 想像ビデオと実行可能な動作の整合性に乏しいため,実用的応用は依然として限られている。
これらの課題に対処するために、視覚言語操作にデュアルシステム設計を用いる階層的拡散に基づく世界モデルフレームワークであるManipulate in Dream (MinD)を提案する。
MinDは、VGMを低周波で実行し、リアルタイムインタラクションに高周波拡散ポリシを活用しながら、映像予測特徴を抽出する。
このアーキテクチャは、コヒーレントな視覚誘導による操作において、低レイテンシでクローズドループ制御を可能にする。
2つのシステムをよりよく調整するために,各拡散モデルに個別のスケジューラを使用する新しい協調学習戦略により,ビデオアクション拡散マッチングモジュール(DiffMatcher)を導入する。
具体的には、DiffMatcherに拡散強制機構を導入し、トレーニング中に中間表現を整列させ、高速アクションモデルがビデオベースの予測をよりよく理解できるようにする。
操作以外にも、MinDは世界シミュレータとしても機能し、実行前にタスクの成功や遅延スペースの失敗を確実に予測する。
信頼できる分析は、VGMが事前にタスクの実現可能性を評価し、リスクを軽減できることを示している。
複数のベンチマークにわたる大規模な実験は、MinDがRL-Benchで最先端の操作(63%以上)を達成し、ロボット工学における統一世界モデリングのフロンティアを前進させることを示した。
関連論文リスト
- Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Epona: Autoregressive Diffusion World Model for Autonomous Driving [39.389981627403316]
既存のビデオ拡散モデルは、柔軟で長い水平予測と軌道計画の統合に苦慮している。
これは、従来のビデオ拡散モデルは固定長フレーム列のグローバルな共同分布モデルに依存しているためである。
本研究では,局所分布モデリングが可能な自己回帰的世界モデルであるEponaを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:56:35Z) - ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model [52.02220087880269]
本稿では,階層的世界モデルを用いてマルチタスクシーンのダイナミックスを消化することにより,双方向操作を改善するManiGaussianフレームワークの拡張を提案する。
提案手法は,シミュレーションタスク10件で20.2%,実世界の課題9件で平均60%の成功率で,最先端のバイマニュアル操作技術よりも優れていた。
論文 参考訳(メタデータ) (2025-06-24T17:59:06Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。