論文の概要: Unified Representation Space for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2506.14238v1
- Date: Tue, 17 Jun 2025 06:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.365293
- Title: Unified Representation Space for 3D Visual Grounding
- Title(参考訳): 3次元視覚グラウンドのための統一表現空間
- Authors: Yinuo Zheng, Lipeng Gu, Honghua Chen, Liangliang Nan, Mingqiang Wei,
- Abstract要約: 3Dビジュアルグラウンドは、テキスト記述に基づいて3Dシーン内のオブジェクトを識別することを目的としている。
既存の方法は、個別に訓練された視覚とテキストエンコーダに依存しており、2つのモードの間に大きなギャップがある。
本稿では,3DVGの統一表現空間を革新的に導入するUniSpace-3Dを提案する。
- 参考スコア(独自算出の注目度): 18.652577474202015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding (3DVG) is a critical task in scene understanding that aims to identify objects in 3D scenes based on text descriptions. However, existing methods rely on separately pre-trained vision and text encoders, resulting in a significant gap between the two modalities in terms of spatial geometry and semantic categories. This discrepancy often causes errors in object positioning and classification. The paper proposes UniSpace-3D, which innovatively introduces a unified representation space for 3DVG, effectively bridging the gap between visual and textual features. Specifically, UniSpace-3D incorporates three innovative designs: i) a unified representation encoder that leverages the pre-trained CLIP model to map visual and textual features into a unified representation space, effectively bridging the gap between the two modalities; ii) a multi-modal contrastive learning module that further reduces the modality gap; iii) a language-guided query selection module that utilizes the positional and semantic information to identify object candidate points aligned with textual descriptions. Extensive experiments demonstrate that UniSpace-3D outperforms baseline models by at least 2.24% on the ScanRefer and Nr3D/Sr3D datasets. The code will be made available upon acceptance of the paper.
- Abstract(参考訳): 3Dビジュアルグラウンドティング(3DVG)は,テキスト記述に基づく3Dシーン内の物体の識別を目的としたシーン理解における重要な課題である。
しかし、既存の手法は、個別に訓練された視覚とテキストエンコーダに依存しており、空間幾何学と意味圏の両モードの間に大きなギャップが生じる。
この矛盾は、しばしば物体の位置や分類の誤りを引き起こす。
本論文では、3DVGの統一表現空間を革新的に導入し、視覚的特徴とテキスト的特徴のギャップを効果的に埋めるUniSpace-3Dを提案する。
具体的には、UniSpace-3Dは3つの革新的な設計を取り入れている。
一 事前訓練されたCLIPモデルを利用して、視覚的特徴及びテキスト的特徴を統一表現空間にマッピングし、二つのモダリティのギャップを効果的に埋める統一表現エンコーダ
二 モダリティギャップをさらに小さくするマルチモーダルコントラスト学習モジュール
三 位置情報及び意味情報を利用して、テキスト記述に整合した対象候補点を特定する言語誘導クエリ選択モジュール。
大規模な実験では、UniSpace-3DはScanReferとNr3D/Sr3Dデータセットでベースラインモデルを少なくとも2.24%上回っている。
コードは、論文の受理時に利用可能になる。
関連論文リスト
- AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [45.68105299990119]
Open-vocabulary 3D object Detection (OV-3DOD) は、閉じた集合を超えて新しいオブジェクトをローカライズし分類することを目的としている。
我々は,OV-3DODの局所オブジェクトとグローバルシーン情報を同時に学習するための階層型フレームワークHCMAを提案する。
論文 参考訳(メタデータ) (2025-03-10T17:55:22Z) - Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces [52.237827968294766]
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。
次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
私たちの作品は、3Dユニモーダルとテキストの特徴空間のトレーニング後のアライメントのベースラインを確立するのに役立つ最初の作品です。
論文 参考訳(メタデータ) (2025-03-07T09:51:56Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。