論文の概要: UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
- arxiv url: http://arxiv.org/abs/2603.08131v1
- Date: Mon, 09 Mar 2026 09:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.726243
- Title: UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
- Title(参考訳): UniGround: トレーニング不要のシーンパーシングによるユニバーサル3Dビジュアルグラウンド
- Authors: Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu,
- Abstract要約: 3Dビジュアルグラウンド(3DVG)は、ロボット工学、拡張現実、人間と機械の相互作用など、AIを具現化する上での課題である。
大規模で事前訓練された基礎モデルは、この面で大きな進歩をもたらし、任意のオブジェクトを特定のシーンに配置できるオープン語彙の3DVGを可能にした。
本稿では,この制約された知覚を学習不要な視覚的・幾何学的推論に置き換え,オープンワールドの3DVGをアンロックする。
- 参考スコア(独自算出の注目度): 21.246395901914376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and localizing objects in complex 3D environments from natural language descriptions, known as 3D Visual Grounding (3DVG), is a foundational challenge in embodied AI, with broad implications for robotics, augmented reality, and human-machine interaction. Large-scale pre-trained foundation models have driven significant progress on this front, enabling open-vocabulary 3DVG that allows systems to locate arbitrary objects in a given scene. However, their reliance on pre-trained models constrains 3D perception and reasoning within the inherited knowledge boundaries, resulting in limited generalization to unseen spatial relationships and poor robustness to out-of-distribution scenes. In this paper, we replace this constrained perception with training-free visual and geometric reasoning, thereby unlocking open-world 3DVG that enables the localization of any object in any scene beyond the training data. Specifically, the proposed UniGround operates in two stages: a Global Candidate Filtering stage that constructs scene candidates through training-free 3D topology and multi-view semantic encoding, and a Local Precision Grounding stage that leverages multi-scale visual prompting and structured reasoning to precisely identify the target object. Experiments on ScanRefer and EmbodiedScan show that UniGround achieves 46.1\%/34.1\% Acc@0.25/0.5 on ScanRefer and 28.7\% Acc@0.25 on EmbodiedScan, establishing a new state-of-the-art among zero-shot methods on EmbodiedScan without any 3D supervision. We further evaluate UniGround in real-world environments under uncontrolled reconstruction conditions and substantial domain shift, showing training-free reasoning generalizes robustly beyond curated benchmarks.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)として知られる自然言語記述から複雑な3D環境内のオブジェクトを理解し、ローカライズすることは、ロボット工学、拡張現実、人間と機械の相互作用に幅広い意味を持つ、AIの具体化における基礎的な課題である。
大規模で事前訓練された基礎モデルは、この面で大きな進歩をもたらし、任意のオブジェクトを特定のシーンに配置できるオープン語彙の3DVGを可能にした。
しかし、事前学習されたモデルへの依存は、継承された知識境界内での3次元知覚と推論を制約し、その結果、空間的関係の見当たらない部分への一般化が制限され、配布外シーンへのロバスト性が低下する。
本稿では、この制約された知覚を、トレーニング不要な視覚的および幾何学的推論に置き換え、トレーニングデータ以外の任意のシーンにおける任意の物体のローカライズを可能にするオープンワールド3DVGをアンロックする。
具体的には、トレーニング不要な3Dトポロジとマルチビューセマンティックエンコーディングを通じてシーン候補を構築するGlobal Candidate Filteringステージと、マルチスケールの視覚的プロンプトと構造化された推論を活用して対象物体を正確に識別するLocal Precision Groundingステージである。
ScanReferとEmbodiedScanの実験では、UniGroundはScanReferで46.1\%/34.1\% Acc@0.25/0.5、EmbodiedScanで28.7\% Acc@0.25を達成した。
実環境におけるUniGroundを、制御不能な再構成条件と実質的なドメインシフトで評価し、トレーニング不要な推論が、キュレートされたベンチマークを超えて頑健に一般化されていることを示す。
関連論文リスト
- Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文 参考訳(メタデータ) (2025-09-19T12:22:24Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - SPAZER: Spatial-Semantic Progressive Reasoning Agent for Zero-shot 3D Visual Grounding [44.82926606018167]
3D Visual Groundingは、自然言語クエリに基づいて、ターゲットオブジェクトを3Dシーン内にローカライズすることを目的としている。
本稿では,VLM駆動型エージェントであるSPAZERについて述べる。
ScanRefer と Nr3D ベンチマークの実験では、SPAZER が従来のゼロショット法よりも大幅に優れていたことが示されている。
論文 参考訳(メタデータ) (2025-06-27T05:34:57Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。