論文の概要: MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis
- arxiv url: http://arxiv.org/abs/2506.18897v2
- Date: Wed, 20 Aug 2025 07:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.124574
- Title: MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis
- Title(参考訳): MinD: リアルタイム計画とインシシットリスク分析のためのデュアルシステム世界モデルを学ぶ
- Authors: Xiaowei Chi, Kuangzhi Ge, Jiaming Liu, Siyuan Zhou, Peidong Jia, Zichen He, Yuzhen Liu, Tingguang Li, Lei Han, Sirui Han, Shanghang Zhang, Yike Guo,
- Abstract要約: 我々は、リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
MinDがRL-Benchで63%の成功率、実世界のFrankaタスクで60%、11.3FPSで稼働
- 参考スコア(独自算出の注目度): 32.08769443927576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Generation Models (VGMs) have become powerful backbones for Vision-Language-Action (VLA) models, leveraging large-scale pretraining for robust dynamics modeling. However, current methods underutilize their distribution modeling capabilities for predicting future states. Two challenges hinder progress: integrating generative processes into feature learning is both technically and conceptually underdeveloped, and naive frame-by-frame video diffusion is computationally inefficient for real-time robotics. To address these, we propose Manipulate in Dream (MinD), a dual-system world model for real-time, risk-aware planning. MinD uses two asynchronous diffusion processes: a low-frequency visual generator (LoDiff) that predicts future scenes and a high-frequency diffusion policy (HiDiff) that outputs actions. Our key insight is that robotic policies do not require fully denoised frames but can rely on low-resolution latents generated in a single denoising step. To connect early predictions to actions, we introduce DiffMatcher, a video-action alignment module with a novel co-training strategy that synchronizes the two diffusion models. MinD achieves a 63% success rate on RL-Bench, 60% on real-world Franka tasks, and operates at 11.3 FPS, demonstrating the efficiency of single-step latent features for control signals. Furthermore, MinD identifies 74% of potential task failures in advance, providing real-time safety signals for monitoring and intervention. This work establishes a new paradigm for efficient and reliable robotic manipulation using generative world models.
- Abstract(参考訳): ビデオ生成モデル (VGM) はビジョン・ランゲージ・アクションモデル (VLA) の強力なバックボーンとなり、ロバスト・ダイナミックス・モデリングに大規模な事前学習を活用している。
しかし、現在の手法では、将来の状態を予測するために分散モデリング能力が不足している。
特徴学習に生成プロセスを統合することは技術的にも概念的にも未発達であり、フレーム・バイ・フレーム・ビデオの拡散はリアルタイム・ロボティクスにとって計算的に非効率である。
これらの問題に対処するために,我々は,リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
DiffMatcherはビデオアクションアライメントモジュールで、2つの拡散モデルと同期する新しい協調学習戦略を備える。
MinDはRL-Benchで63%の成功率、実世界のFrankaタスクで60%を達成し、11.3 FPSで動作し、制御信号の単一ステップ遅延機能の効率を実証している。
さらにMinDは、事前に潜在的なタスク障害の74%を特定し、監視と介入のためのリアルタイム安全信号を提供する。
この研究は、生成的世界モデルを用いた効率的で信頼性の高いロボット操作のための新しいパラダイムを確立する。
関連論文リスト
- Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Epona: Autoregressive Diffusion World Model for Autonomous Driving [39.389981627403316]
既存のビデオ拡散モデルは、柔軟で長い水平予測と軌道計画の統合に苦慮している。
これは、従来のビデオ拡散モデルは固定長フレーム列のグローバルな共同分布モデルに依存しているためである。
本研究では,局所分布モデリングが可能な自己回帰的世界モデルであるEponaを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:56:35Z) - ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model [52.02220087880269]
本稿では,階層的世界モデルを用いてマルチタスクシーンのダイナミックスを消化することにより,双方向操作を改善するManiGaussianフレームワークの拡張を提案する。
提案手法は,シミュレーションタスク10件で20.2%,実世界の課題9件で平均60%の成功率で,最先端のバイマニュアル操作技術よりも優れていた。
論文 参考訳(メタデータ) (2025-06-24T17:59:06Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。