論文の概要: OpenGround: Active Cognition-based Reasoning for Open-World 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2512.23020v1
- Date: Sun, 28 Dec 2025 17:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.324817
- Title: OpenGround: Active Cognition-based Reasoning for Open-World 3D Visual Grounding
- Title(参考訳): OpenGround: オープンワールド3Dビジュアルグラウンドのためのアクティブ認知ベースの推論
- Authors: Wenyuan Huang, Zhao Wang, Zhou Wei, Ting Huang, Fang Zhao, Jian Yang, Zhenyu Zhang,
- Abstract要約: 3Dビジュアルグラウンドは、3Dシーンにおける自然言語記述に基づくオブジェクトの発見を目的としている。
オープンワールド3Dビジュアルグラウンドのための新しいフレームワークOpenGroundを紹介します。
OpenGroundの中心はActive Cognition-based Reasoning (ACR)モジュールである。
- 参考スコア(独自算出の注目度): 20.050911730826098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to locate objects based on natural language descriptions in 3D scenes. Existing methods rely on a pre-defined Object Lookup Table (OLT) to query Visual Language Models (VLMs) for reasoning about object locations, which limits the applications in scenarios with undefined or unforeseen targets. To address this problem, we present OpenGround, a novel zero-shot framework for open-world 3D visual grounding. Central to OpenGround is the Active Cognition-based Reasoning (ACR) module, which is designed to overcome the fundamental limitation of pre-defined OLTs by progressively augmenting the cognitive scope of VLMs. The ACR module performs human-like perception of the target via a cognitive task chain and actively reasons about contextually relevant objects, thereby extending VLM cognition through a dynamically updated OLT. This allows OpenGround to function with both pre-defined and open-world categories. We also propose a new dataset named OpenTarget, which contains over 7000 object-description pairs to evaluate our method in open-world scenarios. Extensive experiments demonstrate that OpenGround achieves competitive performance on Nr3D, state-of-the-art on ScanRefer, and delivers a substantial 17.6% improvement on OpenTarget. Project Page at [this https URL](https://why-102.github.io/openground.io/).
- Abstract(参考訳): 3Dビジュアルグラウンドは、3Dシーンにおける自然言語記述に基づくオブジェクトの発見を目的としている。
既存のメソッドは、オブジェクトの位置を推論するためにVisual Language Models (VLM) をクエリするために、事前に定義されたオブジェクトルックアップテーブル (OLT) に依存している。
この問題に対処するために,オープンワールド3Dビジュアルグラウンドのための新しいゼロショットフレームワークであるOpenGroundを紹介する。
OpenGroundの中央にはActive Cognition-based Reasoning (ACR)モジュールがあり、VLMの認知範囲を徐々に拡大することにより、事前に定義されたORTの基本的な制限を克服するように設計されている。
ACRモジュールは、認知タスクチェーンを介してターゲットの人間ライクな認識を行い、動的に更新されたOLTを介してVLM認識を拡張する。
これによりOpenGroundは、事前に定義されたカテゴリーとオープンワールドカテゴリの両方で機能する。
また,オープンワールドシナリオにおいて,7000以上のオブジェクト記述ペアを含むOpenTargetという新しいデータセットを提案する。
大規模な実験では、OpenGroundがNr3Dの競争性能、ScanReferの最先端、OpenTargetの17.6%の改善を実現している。
Project Page at [ this https URL] (https://why-102.github.io/openground.io/)
関連論文リスト
- Interacted Object Grounding in Spatio-Temporal Human-Object Interactions [70.8859442754261]
我々は、新しいオープンワールドベンチマーク: Grounding Interacted Objects (GIO)を導入する。
オブジェクトの接地作業は視覚システムが相互作用するオブジェクトを発見することを期待するものである。
多様なビデオから対話オブジェクトを検出するための4D質問応答フレームワーク(4D-QA)を提案する。
論文 参考訳(メタデータ) (2024-12-27T09:08:46Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understandingは、オブジェクトクラスの閉じたセットを超えて、新しいオブジェクトをローカライズし、分類することを目的としている。
既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。
我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文 参考訳(メタデータ) (2024-08-20T17:31:48Z) - OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。
本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。
複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-12T08:59:33Z) - Data-Efficient 3D Visual Grounding via Order-Aware Referring [31.96736077210907]
Vigorは、Order-aware Referringを通じて、新しいData-Efficient 3D Visual Groundingフレームワークである。
本稿では,視覚的接地フレームワークを事前訓練するための参照命令を付加する,注文対応ウォームアップトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-25T08:31:14Z) - Open-CRB: Towards Open World Active Learning for 3D Object Detection [40.80953254074535]
LiDARによる3次元物体検出は,最近,能動学習(AL)によって著しく進歩した。
ストリーミングポイントクラウドが未知または新しいオブジェクトを含む実世界のデプロイメントでは、そのようなオブジェクトをキャプチャする現在のALメソッドが探索されていない。
本稿では,3次元物体検出のためのオープンワールドアクティブラーニング(OWAL-3D)という,より実践的で困難な研究課題について検討する。
論文 参考訳(メタデータ) (2023-10-16T13:32:53Z) - Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation [13.770613689032503]
Open-Fusionはリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための画期的なアプローチである。
オープンセットのセマンティック理解のために、事前訓練された視覚言語基盤モデル(VLFM)の力を利用する。
追加の3Dトレーニングを必要とせずに、オープン語彙に優れたアノテーションのない3Dセグメンテーションを提供する。
論文 参考訳(メタデータ) (2023-10-05T21:57:36Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。