論文の概要: N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.16561v1
- Date: Thu, 18 Dec 2025 14:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.088522
- Title: N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
- Title(参考訳): N3D-VLM:視覚・言語モデルにおける空間推論の精度を実現するネイティブ3次元グラウンド
- Authors: Yuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu,
- Abstract要約: N3D-VLMは、ネイティブな3Dオブジェクト認識と3D認識の視覚的推論をシームレスに統合する新しい統合フレームワークである。
RGB/RGB-D入力からの回答を直接予測する従来のエンドツーエンドモデルとは異なり、本手法はネイティブな3Dオブジェクト認識機能を備えたモデルである。
- 参考スコア(独自算出の注目度): 45.008146973701855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While current multimodal models can answer questions based on 2D images, they lack intrinsic 3D object perception, limiting their ability to comprehend spatial relationships and depth cues in 3D scenes. In this work, we propose N3D-VLM, a novel unified framework that seamlessly integrates native 3D object perception with 3D-aware visual reasoning, enabling both precise 3D grounding and interpretable spatial understanding. Unlike conventional end-to-end models that directly predict answers from RGB/RGB-D inputs, our approach equips the model with native 3D object perception capabilities, enabling it to directly localize objects in 3D space based on textual descriptions. Building upon accurate 3D object localization, the model further performs explicit reasoning in 3D, achieving more interpretable and structured spatial understanding. To support robust training for these capabilities, we develop a scalable data construction pipeline that leverages depth estimation to lift large-scale 2D annotations into 3D space, significantly increasing the diversity and coverage for 3D object grounding data, yielding over six times larger than the largest existing single-image 3D detection dataset. Moreover, the pipeline generates spatial question-answering datasets that target chain-of-thought (CoT) reasoning in 3D, facilitating joint training for both 3D object localization and 3D spatial reasoning. Experimental results demonstrate that our unified framework not only achieves state-of-the-art performance on 3D grounding tasks, but also consistently surpasses existing methods in 3D spatial reasoning in vision-language model.
- Abstract(参考訳): 現在のマルチモーダルモデルは、2D画像に基づいて質問に答えることができるが、本質的な3Dオブジェクト認識が欠如しており、3Dシーンにおける空間的関係や奥行きの手がかりを理解する能力が制限されている。
本研究では,N3D-VLMを提案する。N3D-VLMは,ネイティブな3次元オブジェクト認識と3次元視覚的推論をシームレスに統合し,正確な3次元グラウンドと解釈可能な空間的理解を実現する。
RGB/RGB-D入力からの回答を直接予測する従来のエンド・ツー・エンドモデルとは異なり、本手法では3次元オブジェクト認識能力を生かし、テキスト記述に基づいてオブジェクトを3次元空間に直接ローカライズすることができる。
正確な3Dオブジェクトのローカライゼーションに基づいて、モデルはさらに3Dで明示的な推論を行い、より解釈可能で構造化された空間的理解を実現する。
これらの機能に対する堅牢なトレーニングを支援するため,大規模2次元アノテーションを3次元空間に引き上げるために深度推定を利用するスケーラブルなデータ構築パイプラインを開発し,既存の最大1次元画像検出データセットの6倍以上の精度で3次元オブジェクトグラウンドデータの多様性とカバレッジを著しく向上させた。
さらに、パイプラインは、3次元オブジェクトの局所化と3次元空間的推論の両方のための共同トレーニングを容易にし、3次元におけるチェーン・オブ・ソート(CoT)推論をターゲットにした空間的質問応答データセットを生成する。
実験結果から,我々の統合されたフレームワークは3次元グラウンドタスクにおける最先端の性能を達成するだけでなく,視覚言語モデルにおける既存の3次元空間推論手法を一貫して上回っていることがわかった。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - 3D Aware Region Prompted Vision Language Model [99.4106711584584]
SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
論文 参考訳(メタデータ) (2025-09-16T17:59:06Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [25.311698492216127]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文 参考訳(メタデータ) (2024-10-04T19:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。