論文の概要: Grounded 3D-Aware Spatial Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2605.30307v1
- Date: Thu, 28 May 2026 17:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.647893
- Title: Grounded 3D-Aware Spatial Vision-Language Modeling
- Title(参考訳): グラウンドド3次元認識空間ビジョンランゲージモデリング
- Authors: An-Chieh Cheng, Yang Fu, Yatai Ji, Ligeng Zhu, Guanqi Zhan, Zhuoyang Zhang, Zhaojing Yang, Song Han, Yao Lu, Pavlo Molchanov, Vidya Nariyambut Murali, Jan Kautz, Xiaolong Wang, Hongxu Yin, Sifei Liu,
- Abstract要約: 本稿では、3つの補完的な接地機能を備えた空間視覚言語モデルGR3Dを提案する。
明示的な2D接地、暗黙的な2D接地、単眼的な3D接地。
GR3Dは、グラウンドドと非グラウンドドの空間ベンチマークで一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 85.5303613287054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GR3D, a spatial vision language model equipped with three complementary grounding capabilities--explicit 2D grounding, implicit 2D grounding, and monocular 3D grounding--within a single framework. GR3D introduces an implicit grounding mechanism that identifies entity mentions during generation and inserts the corresponding region tokens into the text stream, allowing the model to reference visual evidence on the fly when producing spatial chain-of-thought responses. In parallel, a region-prompted monocular 3D grounding design predicts 3D bounding boxes in the camera view from grounded region queries, supported by intrinsic-aware normalization and dense geometric supervision. Together, these grounding capabilities enable GR3D to decompose complex spatial understanding problems into grounded 2D perception followed by 3D inference. GR3D achieves consistent improvements across grounded and non-grounded spatial benchmarks, demonstrating grounding as an effective inductive bias for strengthening spatial understanding in VLMs. These grounding capabilities collectively enhance general spatial understanding beyond the grounding task itself.
- Abstract(参考訳): 本稿では,3つの補完的接地機能を備えた空間視覚言語モデルGR3Dについて述べる。
GR3Dは、生成中にエンティティの言及を識別し、対応する領域トークンをテキストストリームに挿入する暗黙的な基盤機構を導入し、空間連鎖応答を生成する際に、モデルがハエの視覚的エビデンスを参照できるようにする。
カメラビューの3次元バウンディングボックスは,本質的な正規化と密集した幾何学的監督により,カメラビューの3次元バウンディングボックスを推定する。
これらの接地能力により、GR3Dは複雑な空間理解問題をグラウンドド2次元知覚に分解し、3次元推論を行うことができる。
GR3Dは、基底と非基底の空間ベンチマーク間で一貫した改善を実現し、VLMにおける空間理解を強化する効果的な帰納バイアスとしてグラウンド化を示す。
これらの接地能力は、接地作業自体を超えて、一般的な空間的理解を高める。
関連論文リスト
- SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models [45.008146973701855]
N3D-VLMは、ネイティブな3Dオブジェクト認識と3D認識の視覚的推論をシームレスに統合する新しい統合フレームワークである。
RGB/RGB-D入力からの回答を直接予測する従来のエンドツーエンドモデルとは異なり、本手法はネイティブな3Dオブジェクト認識機能を備えたモデルである。
論文 参考訳(メタデータ) (2025-12-18T14:03:44Z) - Reasoning in Space via Grounding in the World [28.913518130948244]
本研究では,そのギャップを埋める効果的な空間表現を探るため,GS-Spatial Reasoner(GS-Reasoner)を提案する。
GS-Reasonerは、3Dの視覚的グラウンドで印象的な結果を得ることができ、それによって空間的推論能力が大幅に向上する。
論文 参考訳(メタデータ) (2025-10-15T17:58:08Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - R2G: Reasoning to Ground in 3D Scenes [22.917172452931844]
R2G(Reasoning to Ground)は、3Dシーン内の対象物を推論的にグラウンド化するニューラルネットワークのシンボルモデルである。
R2Gは、セマンティックな概念に基づくシーングラフで3Dシーンを明示的にモデル化し、オブジェクトエンティティ間での注意伝達を反復的にシミュレートする。
Sr3D/Nr3Dベンチマークの実験により、R2Gは解釈可能性の向上を維持しつつ、以前の研究と同等の結果を得ることが示された。
論文 参考訳(メタデータ) (2024-08-24T06:52:14Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。