論文の概要: Mono3DVG-EnSD: Enhanced Spatial-aware and Dimension-decoupled Text Encoding for Monocular 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2511.06908v1
- Date: Mon, 10 Nov 2025 10:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.196039
- Title: Mono3DVG-EnSD: Enhanced Spatial-aware and Dimension-decoupled Text Encoding for Monocular 3D Visual Grounding
- Title(参考訳): Mono3DVG-EnSD:モノクロ3次元視覚グラウンドのための空間認識と次元分離型テキストエンコーディング
- Authors: Yuzhen Li, Min Liu, Zhaoyang Li, Yuan Bian, Xueping Wang, Erbo Zhai, Yaonan Wang,
- Abstract要約: CLIP-Guided Lexical Certainty Adapter (CLIP-LCA) と Dimension-Decoupled Module (D2M) の2つの主要なコンポーネントを統合する新しいフレームワーク Mono3DVG-EnSD を提案する。
特に,Far(Acc@0.5)の難易度を+13.54%向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 42.41930714202838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D Visual Grounding (Mono3DVG) is an emerging task that locates 3D objects in RGB images using text descriptions with geometric cues. However, existing methods face two key limitations. Firstly, they often over-rely on high-certainty keywords that explicitly identify the target object while neglecting critical spatial descriptions. Secondly, generalized textual features contain both 2D and 3D descriptive information, thereby capturing an additional dimension of details compared to singular 2D or 3D visual features. This characteristic leads to cross-dimensional interference when refining visual features under text guidance. To overcome these challenges, we propose Mono3DVG-EnSD, a novel framework that integrates two key components: the CLIP-Guided Lexical Certainty Adapter (CLIP-LCA) and the Dimension-Decoupled Module (D2M). The CLIP-LCA dynamically masks high-certainty keywords while retaining low-certainty implicit spatial descriptions, thereby forcing the model to develop a deeper understanding of spatial relationships in captions for object localization. Meanwhile, the D2M decouples dimension-specific (2D/3D) textual features from generalized textual features to guide corresponding visual features at same dimension, which mitigates cross-dimensional interference by ensuring dimensionally-consistent cross-modal interactions. Through comprehensive comparisons and ablation studies on the Mono3DRefer dataset, our method achieves state-of-the-art (SOTA) performance across all metrics. Notably, it improves the challenging Far(Acc@0.5) scenario by a significant +13.54%.
- Abstract(参考訳): モノクロ3DVG(Monocular 3D Visual Grounding)は、幾何学的手がかりを持つテキスト記述を用いて、RGB画像中の3Dオブジェクトを探索する新興タスクである。
しかし、既存の方法には2つの重要な制限がある。
第一に、それらはしばしば、重要な空間的記述を無視しながら対象物を明確に識別する高確かさのキーワードに過剰に依存する。
第二に、一般化されたテキスト特徴は2Dおよび3D記述情報の両方を含み、特異な2Dまたは3D視覚特徴と比較して細部を付加する。
この特徴は、テキスト誘導下で視覚的特徴を洗練する際に、二次元的干渉を引き起こす。
このような課題を克服するために,CLIP-Guided Lexical Certainty Adapter (CLIP-LCA) と Dimension-Decoupled Module (D2M) という,2つの重要なコンポーネントを統合する新しいフレームワークであるMono3DVG-EnSDを提案する。
CLIP-LCAは、低精度な暗黙的空間記述を維持しながら、高確かさのキーワードを動的にマスキングし、オブジェクトローカライゼーションのためのキャプション内の空間関係をより深く理解させる。
一方、D2Mは、次元特異的(2D/3D)テキスト特徴を一般化されたテキスト特徴から切り離して、同じ次元で対応する視覚特徴を導く。
提案手法は,Mono3DReferデータセットの総合的な比較とアブレーション研究を通じて,全指標にわたるSOTA(State-of-the-art)性能を実現する。
特に、Far(Acc@0.5)のシナリオを+13.54%改善している。
関連論文リスト
- Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:36:37Z) - HD$^2$-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、自動運転において重要な役割を果たす。
既存のSSC法は、固有の入出力次元ギャップとアノテーション-現実密度ギャップに悩まされている。
本稿では,画素セマンティクスを拡張した高次元高密度セマンティックシーンコンプリートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:24:35Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation [23.359745449828363]
本稿では,新しいテキストから3D生成フレームワークであるVLM3Dを提案する。
これは、大きな視覚言語モデルをScore Distillation Samplingパイプラインに統合し、差別化可能なセマンティクスと空間的プリエントとして利用する。
VLM3Dは, 意味的忠実度, 幾何学的コヒーレンス, 空間的正当性において, 従来のSDS法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-19T08:54:52Z) - Unified Representation Space for 3D Visual Grounding [18.652577474202015]
3Dビジュアルグラウンドは、テキスト記述に基づいて3Dシーン内のオブジェクトを識別することを目的としている。
既存の方法は、個別に訓練された視覚とテキストエンコーダに依存しており、2つのモードの間に大きなギャップがある。
本稿では,3DVGの統一表現空間を革新的に導入するUniSpace-3Dを提案する。
論文 参考訳(メタデータ) (2025-06-17T06:53:15Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。