論文の概要: Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion
- arxiv url: http://arxiv.org/abs/2512.22626v1
- Date: Sat, 27 Dec 2025 15:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.144861
- Title: Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion
- Title(参考訳): エンビジョン:ゴールイメージビデオ拡散による身体的視覚計画
- Authors: Yuming Gu, Yizhi Wang, Yining Hong, Yipeng Gao, Hao Jiang, Angtian Wang, Bo Liu, Nathaniel S. Dennler, Zhengfei Kuang, Hao Li, Gordon Wetzstein, Chongyang Ma,
- Abstract要約: Embodied Visual Planningは、シーンが望ましい目標に向かってどのように進化するかを想像することで、操作タスクを可能にすることを目的としている。
ビデオ拡散モデルは、このような視覚的想像力の有望な基盤を提供する。
エージェントの視覚的計画を行う拡散型フレームワークであるEnvisionを提案する。
- 参考スコア(独自算出の注目度): 61.63215708592008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied visual planning aims to enable manipulation tasks by imagining how a scene evolves toward a desired goal and using the imagined trajectories to guide actions. Video diffusion models, through their image-to-video generation capability, provide a promising foundation for such visual imagination. However, existing approaches are largely forward predictive, generating trajectories conditioned on the initial observation without explicit goal modeling, thus often leading to spatial drift and goal misalignment. To address these challenges, we propose Envision, a diffusion-based framework that performs visual planning for embodied agents. By explicitly constraining the generation with a goal image, our method enforces physical plausibility and goal consistency throughout the generated trajectory. Specifically, Envision operates in two stages. First, a Goal Imagery Model identifies task-relevant regions, performs region-aware cross attention between the scene and the instruction, and synthesizes a coherent goal image that captures the desired outcome. Then, an Env-Goal Video Model, built upon a first-and-last-frame-conditioned video diffusion model (FL2V), interpolates between the initial observation and the goal image, producing smooth and physically plausible video trajectories that connect the start and goal states. Experiments on object manipulation and image editing benchmarks demonstrate that Envision achieves superior goal alignment, spatial consistency, and object preservation compared to baselines. The resulting visual plans can directly support downstream robotic planning and control, providing reliable guidance for embodied agents.
- Abstract(参考訳): Embodied Visual Planningは、シーンが望ましい目標に向かってどのように進化するかを想像し、想定された軌跡を使ってアクションを導くことで、操作作業を可能にすることを目的としている。
映像拡散モデルは、映像から映像への生成能力を通じて、そのような視覚的想像力の有望な基盤を提供する。
しかし、既存のアプローチは主に前方予測であり、明確な目標モデリングなしで最初の観測で条件付けられた軌道を生成するため、しばしば空間的ドリフトや目標の不整合につながる。
これらの課題に対処するために,エージェントの視覚的計画を行う拡散型フレームワークであるEnvisionを提案する。
本手法は,目標画像による生成を明示的に制限することにより,生成した軌道の物理的妥当性と目標の整合性を強制する。
具体的には、Envisionは2つの段階に分かれている。
まず、ゴール画像モデルがタスク関連領域を特定し、シーンと命令の間の領域対応のクロスアテンションを行い、所望の結果をキャプチャする一貫性のあるゴールイメージを合成する。
次に、第1および第2フレーム条件付きビデオ拡散モデル(FL2V)上に構築されたEnv-Goal Video Modelが、初期観測と目標画像の補間を行い、開始状態と目標状態を結ぶスムーズで物理的に可視なビデオ軌跡を生成する。
オブジェクト操作と画像編集ベンチマークの実験では、Envisionはベースラインよりも優れたゴールアライメント、空間的一貫性、オブジェクト保存を実現している。
結果として得られるビジュアルプランは、下流のロボット計画と制御を直接サポートし、エンボディエージェントの信頼性の高いガイダンスを提供する。
関連論文リスト
- Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - Target-Aware Video Diffusion Models [9.01174307678548]
本稿では、アクターが特定のターゲットと対話する入力画像から映像を生成するターゲット対応ビデオ拡散モデルを提案する。
ターゲットに対するアクターの動きを誘導するために、しばしば密度の高い構造や動きの手がかりに依存する既存の制御可能な画像間拡散モデルとは異なり、我々のターゲット認識モデルはターゲットを示すための単純なマスクしか必要としない。
論文 参考訳(メタデータ) (2025-03-24T17:59:59Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes [14.924741503611749]
本研究では,ターゲット認識空中映像予測(Target-Aware Aerial Video Prediction)と呼ばれる新しいタスクを導入する。
本研究では,空間的静的な注意と時間的ダイナミックな注意にビデオダイナミクスの学習を分離し,シーンの外観と動きを効果的にモデル化する時空間的注意(STA)を紹介した。
ぼかし予測における目標の識別の難しさを軽減するため,ターゲット感性ガウス損失(TSGL)を導入し,目標の位置と内容の両方に対するモデルの感度を高める。
論文 参考訳(メタデータ) (2024-03-27T04:03:55Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Learning Goals from Failure [30.071336708348472]
ビデオにおける観察可能な人間の行動の背景にある目標を予測する枠組みを導入する。
発達心理学のエビデンスに触発され、意図しない行動のビデオを利用して、直接の監督なしにゴールの映像表現を学習する。
論文 参考訳(メタデータ) (2020-06-28T17:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。