論文の概要: Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
- arxiv url: http://arxiv.org/abs/2512.03040v1
- Date: Tue, 02 Dec 2025 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.022606
- Title: Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
- Title(参考訳): Video4Spatial: コンテキスト誘導ビデオ生成による視覚空間知化を目指して
- Authors: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan,
- Abstract要約: 映像ベースのシーンコンテキストにのみ依存した映像生成モデルは、複雑な空間的タスクを実行することができる。
本稿では,ビデオベースのシーンコンテキストにのみ依存した映像拡散モデルが複雑な空間的タスクを実行できることを示すフレームワークであるVideo4Spatialを提案する。
- 参考スコア(独自算出の注目度): 30.29997412297738
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.
- Abstract(参考訳): 映像生成モデルは視覚データのみを用いて,人間の認知の中心となる視覚空間知能を示すことができるかを検討する。
この目的のために、ビデオベースのシーンコンテキストにのみ依存した映像拡散モデルが複雑な空間的タスクを実行できることを示すフレームワークであるVideo4Spatialを提案する。
シーンナビゲーション(シーンナビゲーション) - シーンの3次元幾何学と整合性を維持しながらカメラ目的の指示に従う)とオブジェクトグラウンド(オブジェクトグラウンド) - セマンティックなローカライゼーション、命令の追従、プランニングの2つのタスクについて検証する。
どちらのタスクも、深さやポーズなどの補助的なモダリティなしで、ビデオのみの入力を使用する。
フレームワークとデータキュレーションにおけるシンプルで効果的な設計選択により、Video4Spatialは、ビデオコンテキストからの強い空間的理解を示す。ナビゲーションとグラウンドは、ターゲットオブジェクトをエンドツーエンドに計画し、空間的一貫性を維持しながらカメラ目的の指示に従い、長いコンテキストとドメイン外の環境に一般化する。
これらの結果は,一般的な空間的推論に向けて,映像生成モデルを推し進めるものである。
関連論文リスト
- Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。