論文の概要: Grounding Generated Videos in Feasible Plans via World Models
- arxiv url: http://arxiv.org/abs/2602.01960v1
- Date: Mon, 02 Feb 2026 11:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.097673
- Title: Grounding Generated Videos in Feasible Plans via World Models
- Title(参考訳): 世界モデルによる実現可能な計画映像のグラウンド化
- Authors: Christos Ziakas, Amir Bar, Alessandra Russo,
- Abstract要約: Grounding Video Plans with World Models (GVP-WM) は、ビデオ生成したプランを実行可能なアクションシーケンスに変換するための計画手法である。
GVP-WMはまず、最初の観測とゴール観測からビデオプランを生成し、次に動的に実現可能な潜在軌道の多様体にビデオガイダンスを投影する。
- 参考スコア(独自算出の注目度): 52.63206803295352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video generative models have shown emerging capabilities as zero-shot visual planners, yet video-generated plans often violate temporal consistency and physical constraints, leading to failures when mapped to executable actions. To address this, we propose Grounding Video Plans with World Models (GVP-WM), a planning method that grounds video-generated plans into feasible action sequences using a learned action-conditioned world model. At test-time, GVP-WM first generates a video plan from initial and goal observations, then projects the video guidance onto the manifold of dynamically feasible latent trajectories via video-guided latent collocation. In particular, we formulate grounding as a goal-conditioned latent-space trajectory optimization problem that jointly optimizes latent states and actions under world-model dynamics, while preserving semantic alignment with the video-generated plan. Empirically, GVP-WM recovers feasible long-horizon plans from zero-shot image-to-video-generated and motion-blurred videos that violate physical constraints, across navigation and manipulation simulation tasks.
- Abstract(参考訳): 大規模なビデオ生成モデルは、ゼロショットのビジュアルプランナーとして出現する能力を示しているが、ビデオ生成計画は、時間的一貫性と物理的制約に反することが多く、実行可能アクションにマッピングされた時に失敗する。
そこで本研究では,学習されたアクション条件付き世界モデルを用いて,映像生成計画から実行可能なアクションシーケンスを抽出する,GVP-WM( Grounding Video Plans with World Models)を提案する。
テスト時に、GVP-WMはまず最初の観測とゴール観測からビデオプランを生成し、次にビデオ誘導された潜在軌道の多様体に映像誘導を投影する。
特に,映像生成計画とのセマンティックアライメントを保ちながら,世界モデル力学の下での潜在状態と動作を協調的に最適化する目標条件付き潜在空間軌道最適化問題としてグラウンドグラウンドを定式化する。
GVP-WMは、物理的な制約に違反するゼロショット映像から動画生成、モーションブルーのビデオから、ナビゲーションや操作シミュレーションのタスクを通して実現可能なロングホライゾンプランを復元する。
関連論文リスト
- Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion [61.63215708592008]
Embodied Visual Planningは、シーンが望ましい目標に向かってどのように進化するかを想像することで、操作タスクを可能にすることを目的としている。
ビデオ拡散モデルは、このような視覚的想像力の有望な基盤を提供する。
エージェントの視覚的計画を行う拡散型フレームワークであるEnvisionを提案する。
論文 参考訳(メタデータ) (2025-12-27T15:46:41Z) - Planning with Sketch-Guided Verification for Physics-Aware Video Generation [71.29706409814324]
そこで我々は,SketchVerifyを,ビデオ生成のためのトレーニングフリーでスケッチ検証ベースの計画フレームワークとして提案する。
提案手法は,複数の候補動きプランを予測し,視覚言語検証器を用いてランク付けする。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
論文 参考訳(メタデータ) (2025-11-21T17:48:02Z) - MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation [18.468025471225527]
MoWMは、ハイブリッドワールドモデルから表現を融合して、具体的アクションプランニングを行う混合世界モデルフレームワークである。
提案手法では,ピクセル空間モデルから微細な視覚的特徴の抽出を誘導する,潜在モデルからの動き認識表現を高レベルな事前表現として利用する。
論文 参考訳(メタデータ) (2025-09-26T02:54:36Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。