論文の概要: Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding
- arxiv url: http://arxiv.org/abs/2506.05199v1
- Date: Thu, 05 Jun 2025 16:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.809662
- Title: Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding
- Title(参考訳): 検出を超えた接地:身体的3次元接地における文脈理解の強化
- Authors: Yani Zhang, Dongming Wu, Hao Shi, Yingfei Liu, Tiancai Wang, Haoqiang Fan, Xingping Dong,
- Abstract要約: Embodied 3D groundingは、エゴ中心の視点から人間の指示で記述された対象物をローカライズすることを目的としている。
本研究では,対象カテゴリによってフィルタリングされた予測ボックスを用いて,検出モデルの接地性能を評価する。
驚くべきことに、これらの検出モデルは、命令固有のトレーニングなしで、言語命令で明示的に訓練されたグラウンドモデルよりも優れている。
- 参考スコア(独自算出の注目度): 29.035369822597218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied 3D grounding aims to localize target objects described in human instructions from ego-centric viewpoint. Most methods typically follow a two-stage paradigm where a trained 3D detector's optimized backbone parameters are used to initialize a grounding model. In this study, we explore a fundamental question: Does embodied 3D grounding benefit enough from detection? To answer this question, we assess the grounding performance of detection models using predicted boxes filtered by the target category. Surprisingly, these detection models without any instruction-specific training outperform the grounding models explicitly trained with language instructions. This indicates that even category-level embodied 3D grounding may not be well resolved, let alone more fine-grained context-aware grounding. Motivated by this finding, we propose DEGround, which shares DETR queries as object representation for both DEtection and Grounding and enables the grounding to benefit from basic category classification and box detection. Based on this framework, we further introduce a regional activation grounding module that highlights instruction-related regions and a query-wise modulation module that incorporates sentence-level semantic into the query representation, strengthening the context-aware understanding of language instructions. Remarkably, DEGround outperforms state-of-the-art model BIP3D by 7.52\% at overall accuracy on the EmbodiedScan validation set. The source code will be publicly available at https://github.com/zyn213/DEGround.
- Abstract(参考訳): Embodied 3D groundingは、エゴ中心の視点から人間の指示で記述された対象物をローカライズすることを目的としている。
ほとんどの手法は、訓練された3D検出器の最適化されたバックボーンパラメータがグラウンドモデルの初期化に使用される2段階のパラダイムに従っている。
本研究では,3Dグラウンディングを具体化すれば検出から十分な利益が得られるか,という根本的な疑問を探る。
そこで本研究では,対象カテゴリによってフィルタリングされた予測ボックスを用いて,検出モデルの接地性能を評価する。
驚くべきことに、これらの検出モデルは、命令固有のトレーニングなしで、言語命令で明示的に訓練されたグラウンドモデルよりも優れている。
これは、カテゴリーレベルの3Dグラウンド化でさえ、よりきめ細かなコンテキスト認識グラウンド化がうまく解決されないことを示している。
そこで本研究では,DETRクエリをデテククションとグラウンドの両方のオブジェクト表現として共有するDEGroundを提案する。
この枠組みに基づき、命令関連領域を強調表示する地域活性化基盤モジュールと、文レベルのセマンティックをクエリ表現に組み込んだクエリ操作モジュールを導入し、言語命令の文脈認識の理解を深める。
DEGroundは、EmbodiedScanバリデーションセットの全体的な精度で、最先端のBIP3Dを7.52\%上回る。
ソースコードはhttps://github.com/zyn213/DEGround.comで公開されている。
関連論文リスト
- ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities [23.18281583681258]
我々は3D推論基底と呼ばれる新しいタスクを提案し、新しいベンチマークScanReasonを導入する。
ScanReasonは、推論とグラウンドの相乗化を必要とする5つの推論タイプから10万以上の質問と回答のペアを提供する。
提案手法は, 推論において, 分岐推論と接地ステップにより, さらなる性能向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T17:59:35Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.493213289990962]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Utilizing Every Image Object for Semi-supervised Phrase Grounding [25.36231298036066]
フレーズグラウンドモデルでは、参照式が与えられた画像内のオブジェクトをローカライズする。
本稿では,半教師付き句接頭辞の学習にラベル付きクエリを使わずにオブジェクトを適用した場合について検討する。
提案手法は,提案手法により,クエリをラベル付けせずに対象物から学習し,検出結果と相対的に34.9%の精度で精度を向上できることを示す。
論文 参考訳(メタデータ) (2020-11-05T04:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。