論文の概要: Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2605.30231v1
- Date: Thu, 28 May 2026 17:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.566015
- Title: Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning
- Title(参考訳): 3次元VQAを超える:幾何学的推論のための視覚言語モデルに3次元空間的優先順位を注入する
- Authors: Chun-Hsiao Yeh, Shengyi Qian, Manchen Wang, Yi Ma, Joseph Tighe, Fanyi Xiao,
- Abstract要約: VLM(Vision-Language Models)は、しばしば堅牢な3次元空間推論に苦しむ。
GASP(Geometric Aware Spatial Priors)は,LLMのトランスフォーマー層に直接,基本的な幾何学的事前を注入するフレームワークである。
GASPは、すべての層にまたがる深い監視信号として応用された小さな対応ヘッドを使用し、地上の映像シーンを活用する2つの目的で訓練されている。
- 参考スコア(独自算出の注目度): 24.251128353444713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.
- Abstract(参考訳): VLM(Vision-Language Models)は、しばしば堅牢な3次元空間推論に苦しむ。
3Dビジュアル質問回答(VQA)データセットによる微調整に依存する一般的な方法は、データセット固有のバイアスに過度に適合する可能性がある一方で、特殊な3Dビジュアルエンコーダを統合することは、しばしば柔軟で扱いにくい。
本稿では,高レベルのVQA監視だけでなく,基本的な幾何学的事前学習から真の空間的理解が生まれるべきだと論じる。
GASP(Geometric-Aware Spatial Priors)は,これらの事前情報をLCMのトランスフォーマー層に直接注入するフレームワークである。
GASPは、すべての層にまたがる深層監視信号として応用された小さな対応ヘッドを使用し、大規模映像シーンから地平線幾何を利用する2つの目的で訓練されている。
まず、標準VLMの内部対応精度が非常に低い(しばしば5%未満)ことを診断する。
そして、トレーニングによってこの挙動が大幅に改善され、ピーク層対応が70%以上、時間的ロバスト性が85%以上、ベースラインが5%以下であることが実証された。
これらの内部改良は、VSI-Benchの+18.2%、VSI-Benchの+29.0%といった下流空間ベンチマークで大きく向上した。
より信頼性の高い3次元空間推論により,基本的な幾何学的先行点からの学習がVLMへの有望かつ一般化可能な経路であることが示唆された。
関連論文リスト
- SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。
我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。
VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文 参考訳(メタデータ) (2025-11-18T09:05:26Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。