論文の概要: Zero-Shot Visual Grounding in 3D Gaussians via View Retrieval
- arxiv url: http://arxiv.org/abs/2509.15871v1
- Date: Fri, 19 Sep 2025 11:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.137613
- Title: Zero-Shot Visual Grounding in 3D Gaussians via View Retrieval
- Title(参考訳): ビュー検索による3次元ガウスのゼロショット視覚接地
- Authors: Liwei Liao, Xufeng Li, Xiaoyun Zheng, Boning Liu, Feng Gao, Ronggang Wang,
- Abstract要約: 3Dビジュアルグラウンド(3DVG)は、テキストプロンプトに基づいて3Dシーン内のオブジェクトを見つけることを目的としている。
本稿では,2次元検索タスクとして3DVGを変換するアンダーラインビューアンダーライン検索(GVR)を提案する。
本手法は,シーンごとのトレーニングを回避しつつ,最先端の視覚接地性能を実現する。
- 参考スコア(独自算出の注目度): 30.111912463361275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Visual Grounding (3DVG) aims to locate objects in 3D scenes based on text prompts, which is essential for applications such as robotics. However, existing 3DVG methods encounter two main challenges: first, they struggle to handle the implicit representation of spatial textures in 3D Gaussian Splatting (3DGS), making per-scene training indispensable; second, they typically require larges amounts of labeled data for effective training. To this end, we propose \underline{G}rounding via \underline{V}iew \underline{R}etrieval (GVR), a novel zero-shot visual grounding framework for 3DGS to transform 3DVG as a 2D retrieval task that leverages object-level view retrieval to collect grounding clues from multiple views, which not only avoids the costly process of 3D annotation, but also eliminates the need for per-scene training. Extensive experiments demonstrate that our method achieves state-of-the-art visual grounding performance while avoiding per-scene training, providing a solid foundation for zero-shot 3DVG research. Video demos can be found in https://github.com/leviome/GVR_demos.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)は、ロボット工学などのアプリケーションに不可欠なテキストプロンプトに基づいて、3Dシーン内のオブジェクトを見つけることを目的としている。
しかし、既存の3DVG法は2つの大きな課題に直面している: まず、3Dガウススティング(3DGS)における空間テクスチャの暗黙的な表現を扱うのに苦労し、シーンごとのトレーニングが不可欠である。
この目的のために,3DGS が3次元検索タスクとして3DVG を変換するための新しいゼロショットビジュアルグラウンドティングフレームワークである \underline{V}iew \underline{R}etrieval (GVR) を,オブジェクトレベルのビュー検索を利用して複数のビューからグラウンドディング手がかりを収集する。
広汎な実験により, シーンごとのトレーニングを回避しつつ, 最先端の視覚接地性能を実現し, ゼロショット3DVG研究の基盤となることが実証された。
ビデオデモはhttps://github.com/leviome/GVR_demosで見ることができる。
関連論文リスト
- Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
現在、既存のすべてのメソッドは、トレーニング中や推論時に2Dまたはテキストのモダリティに依存している。
我々はSceneSplatを紹介し,3DGSで動作する最初の大規模屋内シーン理解手法について紹介する。
ラベルのないシーンからリッチな3D特徴学習を解放する自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-23T12:50:25Z) - From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs [64.28181017898369]
LIFT-GSはポイントクラウドから3Dガウス表現を予測し、予測された言語条件の3Dマスクを2Dビューにレンダリングする。
LIFT-GSは、オープン語彙のインスタンスセグメンテーションで25.7%のmAPで最先端の結果を達成する。
注目すべきは、事前トレーニングがデータセットの微調整を2倍にし、強力なスケーリング特性を示すことだ。
論文 参考訳(メタデータ) (2025-02-27T18:59:11Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンド(3D Visual Grounding)は、拡張現実(AR)やロボティクス(ロボティクス)などの応用に欠かせない、テキストによる記述に基づく3Dシーンのオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
SeeGroundは3Dのシーンを3Dデータと2D-VLMの入力フォーマットのギャップを埋め、クエリ整列された画像と空間的にリッチなテキスト記述のハイブリッドとして表現している。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。