論文の概要: View-on-Graph: Zero-shot 3D Visual Grounding via Vision-Language Reasoning on Scene Graphs
- arxiv url: http://arxiv.org/abs/2512.09215v1
- Date: Wed, 10 Dec 2025 00:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.353983
- Title: View-on-Graph: Zero-shot 3D Visual Grounding via Vision-Language Reasoning on Scene Graphs
- Title(参考訳): View-on-Graph: シーングラフの視覚言語推論によるゼロショット3次元視覚グラウンド
- Authors: Yuanyuan Liu, Haiyang Mei, Dongyang Zhan, Jiayue Zhao, Dongsheng Zhou, Bo Dong, Xin Yang,
- Abstract要約: 3Dビジュアルグラウンドは、言語記述から3Dシーン内のオブジェクトを識別する。
既存のゼロショットアプローチでは、3次元空間情報(SI)をVLM処理に変換することで2次元視覚言語モデル(VLM)を利用する。
本稿では,新たなVLM x SIパラダイムを提案する。このパラダイムは3D SIを外部化することで,VLMが推論時に必要なもののみを段階的に取り出すことを可能にする。
- 参考スコア(独自算出の注目度): 19.27758108925572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding (3DVG) identifies objects in 3D scenes from language descriptions. Existing zero-shot approaches leverage 2D vision-language models (VLMs) by converting 3D spatial information (SI) into forms amenable to VLM processing, typically as composite inputs such as specified view renderings or video sequences with overlaid object markers. However, this VLM + SI paradigm yields entangled visual representations that compel the VLM to process entire cluttered cues, making it hard to exploit spatial semantic relationships effectively. In this work, we propose a new VLM x SI paradigm that externalizes the 3D SI into a form enabling the VLM to incrementally retrieve only what it needs during reasoning. We instantiate this paradigm with a novel View-on-Graph (VoG) method, which organizes the scene into a multi-modal, multi-layer scene graph and allows the VLM to operate as an active agent that selectively accesses necessary cues as it traverses the scene. This design offers two intrinsic advantages: (i) by structuring 3D context into a spatially and semantically coherent scene graph rather than confounding the VLM with densely entangled visual inputs, it lowers the VLM's reasoning difficulty; and (ii) by actively exploring and reasoning over the scene graph, it naturally produces transparent, step-by-step traces for interpretable 3DVG. Extensive experiments show that VoG achieves state-of-the-art zero-shot performance, establishing structured scene exploration as a promising strategy for advancing zero-shot 3DVG.
- Abstract(参考訳): 3Dビジュアルグラウンドティング(3DVG)は、言語記述から3Dシーン内のオブジェクトを識別する。
既存のゼロショットアプローチでは、3次元空間情報(SI)をVLM処理に適した形式に変換することで2次元視覚言語モデル(VLM)を利用する。
しかしながら、このVLM+SIパラダイムは、VLMに散らばったキュー全体を処理せざるを得ない絡み合った視覚表現をもたらし、空間的な意味的関係を効果的に活用することは困難である。
本研究では,3次元SIの外部化を図った新たなVLM x SIパラダイムを提案する。
このパラダイムを新しいView-on-Graph(VoG)メソッドでインスタンス化し、シーンをマルチモーダルで多層的なシーングラフに整理し、シーンを横断するときに必要なキューを選択的にアクセスするアクティブエージェントとしてVLMが動作できるようにする。
このデザインには、本質的な利点が2つあります。
(i)3次元コンテキストを密接な絡み合った視覚入力でVLMを畳むのではなく、空間的・意味的に整合したシーングラフに構造化することにより、VLMの推論困難度を下げる。
(i)シーングラフを積極的に探索し、推論することにより、3DVGを解釈するための透明でステップバイステップのトレースを自然に生成する。
広汎な実験により、VoGは最先端のゼロショット性能を達成し、ゼロショット3DVGを進めるための有望な戦略として構造化されたシーン探索を確立した。
関連論文リスト
- HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model [14.277165215664425]
大規模視覚言語モデル (VLM) は3次元シーン理解に大きな可能性を示唆している。
既存のVLMベースのアプローチは、通常、VLMの埋め込み空間と3Dシーンの特徴を一致させる。
本稿では3次元シーン推論のための新しい階層型マルチモーダル表現を提案する。
論文 参考訳(メタデータ) (2025-11-28T08:06:20Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。
また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文 参考訳(メタデータ) (2025-10-24T00:52:33Z) - SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding [40.60812160987424]
3Dビジュアルグラウンド(3DVG)は、自然言語による3Dシーンのオブジェクトのローカライズを目的としている。
対象物推論のための空間情報を備えた多視点実写シーン画像を利用する新しいゼロショット3DVGフレームワークであるSeqVLMを提案する。
ScanRefer と Nr3D のベンチマーク実験では、従来のゼロショット法を4.0%、Nr3D で5.2%上回った。
論文 参考訳(メタデータ) (2025-08-28T13:15:37Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding [57.64806066986975]
3D Visual Groundingはテキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
ゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-11-26T19:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。