論文の概要: PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2512.20907v1
- Date: Wed, 24 Dec 2025 03:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.662991
- Title: PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding
- Title(参考訳): PanoGrounder:VLMベースの3次元視覚グラウンドのためのパノラマシーン表現を用いた2次元および3次元ブリッジ
- Authors: Seongmin Jung, Seongho Choi, Gunwoo Jeon, Minsu Cho, Jongwoo Lim,
- Abstract要約: PanoGrounderは、多モードパノラマ表現と事前訓練された2D VLMを結合して、強力な視覚言語推論を行う、一般化可能な3DVGフレームワークである。
シーンレイアウトと幾何学を考慮したパノラマ視点をコンパクトに配置する3段階パイプラインを考案する。
提案手法は, ScanRefer と Nr3D の最先端結果を実現し, 未知の3次元データセットやテキストの言い換えに優れた一般化を示す。
- 参考スコア(独自算出の注目度): 43.69203194188852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Visual Grounding (3DVG) is a critical bridge from vision-language perception to robotics, requiring both language understanding and 3D scene reasoning. Traditional supervised models leverage explicit 3D geometry but exhibit limited generalization, owing to the scarcity of 3D vision-language datasets and the limited reasoning capabilities compared to modern vision-language models (VLMs). We propose PanoGrounder, a generalizable 3DVG framework that couples multi-modal panoramic representation with pretrained 2D VLMs for strong vision-language reasoning. Panoramic renderings, augmented with 3D semantic and geometric features, serve as an intermediate representation between 2D and 3D, and offer two major benefits: (i) they can be directly fed to VLMs with minimal adaptation and (ii) they retain long-range object-to-object relations thanks to their 360-degree field of view. We devise a three-stage pipeline that places a compact set of panoramic viewpoints considering the scene layout and geometry, grounds a text query on each panoramic rendering with a VLM, and fuses per-view predictions into a single 3D bounding box via lifting. Our approach achieves state-of-the-art results on ScanRefer and Nr3D, and demonstrates superior generalization to unseen 3D datasets and text rephrasings.
- Abstract(参考訳): 3Dビジュアルグラウンドリング(3DVG)は、視覚言語知覚からロボット工学への重要なブリッジであり、言語理解と3Dシーン推論の両方を必要とする。
従来の教師付きモデルは、明示的な3次元幾何学を利用するが、3次元視覚言語データセットの不足と、現代の視覚言語モデル(VLM)と比較して推論能力に制限があるため、限定的な一般化を示す。
本研究では,多モードパノラマ表現と事前学習した2次元VLMを結合した3DVGフレームワークであるPanoGrounderを提案する。
パノラマレンダリング(パノラマレンダリング)は、3Dのセマンティクスと幾何学的特徴で強化され、2Dと3Dの中間表現として機能し、2つの大きな利点を提供する。
(i)極小適応で直接VLMに供給することができる。
(II)360度視野による長距離物体間関係を維持する。
我々は、シーンレイアウトと幾何学を考慮したパノラマ視点のコンパクトなセットを配置し、各パノラマレンダリングのテキストクエリをVLMでグラウンド化し、ビューごとの予測をリフトにより単一の3Dバウンディングボックスに融合する3段階パイプラインを考案した。
提案手法は, ScanRefer と Nr3D の最先端結果を実現し, 未知の3次元データセットやテキストの言い換えに優れた一般化を示す。
関連論文リスト
- LLaVA$^3$: Representing 3D Scenes like a Cubist Painter to Boost 3D Scene Understanding of VLMs [4.332158627306896]
LLaVA$3$(LLaVA-Cube)は視覚言語モデルの3次元シーン理解能力を向上させる新しい手法である。
キュービストの画家に触発されて、各物体の全方向の視覚表現を通して、VLMの3次元シーンを記述することを提案する。
論文 参考訳(メタデータ) (2025-11-20T15:22:22Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - Weakly-Supervised 3D Visual Grounding based on Visual Language Alignment [24.63428589906294]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。