論文の概要: Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.20557v1
- Date: Tue, 23 Dec 2025 17:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.958202
- Title: Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
- Title(参考訳): 4Dで推論を学ぶ:視覚言語モデルのための動的空間理解
- Authors: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi,
- Abstract要約: DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
- 参考スコア(独自算出の注目度): 79.18306680174011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、動的空間推論(DSR)において、拡張性のある4D対応のトレーニングリソースが不足していることから、時間とともにオブジェクトの幾何学の進化と3D空間における関係性について推論するなど、一般的な理解では優れているが、依然として弱いままである。
このギャップをデータセット、ベンチマーク、モデルの観点から埋めるために、DSR Suiteを導入します。
まず,DSRのビデオから複数の質問応答対を生成する自動パイプラインを提案する。
現代の視覚基盤モデルを活用することで、パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3D軌跡を含む、リッチな幾何学的および運動情報を抽出する。
これらの幾何学的手法は、学習のためのDSR-Trainの構築を可能にし、さらに人為的なDSR-Benchの評価を可能にする。
これまでの研究と比較すると、我々のデータは強調される。
(i)Wildのビデオソース。
(ii)オブジェクトレベルおよびシーンレベルの3D要件。
(三)視点転換
(四)多目的相互作用、及び
(v)きめ細かい手続き的な回答。
データ以外にも、幾何学的先行概念をVLMにシームレスに統合する軽量な幾何学的選択モジュール(GSM)を提案し、このモジュールは、事前訓練された4D再構成前の質問関連知識をコンパクトな幾何学的トークン集合に抽出する。
この対象抽出は、無関係な知識でモデルを過度に回避する。
実験により、DSR-TrainとGSMをQwen2.5-VL-7Bに統合することで、一般的なビデオ理解ベンチマークの精度を維持しながら、その動的空間推論能力を著しく向上することが示された。
関連論文リスト
- Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。