論文の概要: G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2511.21688v2
- Date: Thu, 27 Nov 2025 07:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.821526
- Title: G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
- Title(参考訳): G$^2$VLM:統一3次元再構成と空間推論を用いた幾何接地視覚言語モデル
- Authors: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang,
- Abstract要約: VLM(Vision-Language Models)は、空間知能にはまだ堅牢性がない。
G$2$VLMは空間知能の2つの基本的な側面を橋渡しする視覚言語モデルである。
- 参考スコア(独自算出の注目度): 36.62798449863548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G$^2$VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G$^2$VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G$^2$VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G$^2$VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.
- Abstract(参考訳): VLM(Vision-Language Models)は、空間的知性にはまだ堅牢性がなく、空間的理解と推論タスクにおける性能が劣っている。
このギャップは、2次元画像から3次元空間を再構成できる視覚幾何学学習プロセスが存在しないことに起因する。
G$^2$VLMは、空間的知能の2つの基本的な側面、空間的3次元再構成と空間的理解を橋渡しする幾何学的接地型視覚言語モデルである。
G$^2$VLMは、学習した3次元視覚幾何学的特徴を生かして、3D属性を直接予測し、コンテキスト内学習とインターリーブされた推論を通じて空間的推論タスクを強化する。
我々の統合デザインは空間的理解のために非常にスケーラブルで、豊富なマルチビュー画像とビデオデータをトレーニングすると同時に、3D視覚的事前処理の利点を活用できます。
実験により,G$^2$VLMは両タスクに熟練しており,最先端のフィードフォワード3D再構成モデルに匹敵する結果が得られ,空間的理解と推論タスクにまたがる優れた,あるいは競争的な結果が得られた。
低レベルな3次元視覚タスクで意味的に強いVLMを統合することで、G$^2$VLMがコミュニティの強力なベースラインとして機能し、3Dシーン編集のような将来的なアプリケーションをアンロックできることを願っている。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。
また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文 参考訳(メタデータ) (2025-10-24T00:52:33Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。