論文の概要: Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation
- arxiv url: http://arxiv.org/abs/2602.10717v1
- Date: Wed, 11 Feb 2026 10:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.361316
- Title: Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation
- Title(参考訳): 言葉、夢、そして行為:教示駆動型ロボットマニピュレーションのためのビデオワールドモデルを学ぶ
- Authors: Songen Gu, Yunuo Cai, Tianyu Wang, Simo Wu, Yanwei Fu,
- Abstract要約: 本稿では,高速かつ予測可能な映像調和行動のためのフレームワークを提案する。
提案手法はまず,信頼性の高い将来予測を保証するために,ロバストなビデオ生成モデルを選択し,適応する。
本手法は,時間的コヒーレントで空間的精度の高い映像予測を行い,正確な操作を直接支援する。
- 参考スコア(独自算出の注目度): 31.881404705268356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation requires anticipating how the environment evolves in response to actions, yet most existing systems lack this predictive capability, often resulting in errors and inefficiency. While Vision-Language Models (VLMs) provide high-level guidance, they cannot explicitly forecast future states, and existing world models either predict only short horizons or produce spatially inconsistent frames. To address these challenges, we propose a framework for fast and predictive video-conditioned action. Our approach first selects and adapts a robust video generation model to ensure reliable future predictions, then applies adversarial distillation for fast, few-step video generation, and finally trains an action model that leverages both generated videos and real observations to correct spatial errors. Extensive experiments show that our method produces temporally coherent, spatially accurate video predictions that directly support precise manipulation, achieving significant improvements in embodiment consistency, spatial referring ability, and task completion over existing baselines. Codes & Models will be released.
- Abstract(参考訳): ロボット操作は、動作に応じて環境がどのように進化するかを予測する必要があるが、既存のほとんどのシステムは、この予測能力に欠けており、しばしばエラーや非効率をもたらす。
VLM(Vision-Language Models)は高レベルのガイダンスを提供するが、将来の状態を明示的に予測することはできず、既存の世界モデルは短い地平線のみを予測するか、空間的に一貫性のないフレームを生成する。
これらの課題に対処するため,我々は,高速かつ予測可能な映像条件対応のためのフレームワークを提案する。
提案手法は,まず,信頼性の高い将来予測を保証するために頑健な映像生成モデルを選択し,次に,高速かつ数ステップの映像生成に逆蒸留を適用し,生成した映像と実観測を併用して空間誤差を補正するアクションモデルを訓練する。
広汎な実験により,提案手法は時間的コヒーレントかつ空間的精度の高い映像予測を実現し,正確な操作を直接支援し,既存のベースライン上でのエンボディメントの整合性,空間参照能力,タスク完了性を著しく向上した。
Codes & Modelsがリリースされる。
関連論文リスト
- GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - World Guidance: World Modeling in Condition Space for Action Generation [39.098315503589895]
アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
動作推論パイプラインに注入することで、将来の観測結果をコンパクトな条件にマッピングするフレームワークであるWoGを提案する。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
論文 参考訳(メタデータ) (2026-02-25T15:27:09Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - Autoregressive Flow Matching for Motion Prediction [14.914156964274897]
自己回帰フローマッチング(ARFM)は逐次連続データの確率論的モデリングのための新しい手法である。
本研究では,人間とロボットの動作を予測する動作予測モデルの能力を評価するためのベンチマークを開発する。
我々のモデルは複雑な動作を予測することができ、予測された将来のトラック上での条件付きロボットの動作予測と人間の動作予測が下流タスク性能を大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2025-12-27T19:35:45Z) - ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos [13.630119246378518]
我々は、世界モデルを駆動するには、アクションコントロールとアクション予測の2つの追加能力が必要であると論じる。
ProphetDWMは、未来のビデオやアクションを共同で予測する新しいエンド・ツー・エンドの運転世界モデルである。
論文 参考訳(メタデータ) (2025-05-24T11:35:09Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。