論文の概要: Dual Enhancement on 3D Vision-Language Perception for Monocular 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2508.19165v1
- Date: Tue, 26 Aug 2025 16:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.914251
- Title: Dual Enhancement on 3D Vision-Language Perception for Monocular 3D Visual Grounding
- Title(参考訳): 単眼3次元視覚接地における3次元視線知覚の二重化
- Authors: Yuzhen Li, Min Liu, Yuan Bian, Xueping Wang, Zhaoyang Li, Gen Li, Yaonan Wang,
- Abstract要約: 特異な幾何学的情報を持つテキスト記述を用いて,RGB画像中の3Dオブジェクトを見つけることを目的とした新しい課題である。
そこで本研究では,テキスト埋め込みと幾何学的特徴に基づくモデルの3次元認識を,2つの単純かつ効果的な方法で向上させることを提案する。
- 参考スコア(独自算出の注目度): 46.331376542148696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D visual grounding is a novel task that aims to locate 3D objects in RGB images using text descriptions with explicit geometry information. Despite the inclusion of geometry details in the text, we observe that the text embeddings are sensitive to the magnitude of numerical values but largely ignore the associated measurement units. For example, simply equidistant mapping the length with unit "meter" to "decimeters" or "centimeters" leads to severe performance degradation, even though the physical length remains equivalent. This observation signifies the weak 3D comprehension of pre-trained language model, which generates misguiding text features to hinder 3D perception. Therefore, we propose to enhance the 3D perception of model on text embeddings and geometry features with two simple and effective methods. Firstly, we introduce a pre-processing method named 3D-text Enhancement (3DTE), which enhances the comprehension of mapping relationships between different units by augmenting the diversity of distance descriptors in text queries. Next, we propose a Text-Guided Geometry Enhancement (TGE) module to further enhance the 3D-text information by projecting the basic text features into geometrically consistent space. These 3D-enhanced text features are then leveraged to precisely guide the attention of geometry features. We evaluate the proposed method through extensive comparisons and ablation studies on the Mono3DRefer dataset. Experimental results demonstrate substantial improvements over previous methods, achieving new state-of-the-art results with a notable accuracy gain of 11.94\% in the "Far" scenario. Our code will be made publicly available.
- Abstract(参考訳): 特異な幾何学的情報を持つテキスト記述を用いて,RGB画像中の3Dオブジェクトを見つけることを目的とした新しい課題である。
テキストに幾何学的詳細が組み込まれているにもかかわらず、テキストの埋め込みは数値の大きさに敏感であるが、関連する測定単位をほとんど無視している。
例えば、単位"メーター"から"デシメータ"や"センタ"に長さを同値にマッピングするだけで、物理的な長さが等価であるにもかかわらず、パフォーマンスが著しく低下する。
この観察は、事前学習された言語モデルの弱い3次元理解を示し、3次元知覚を妨げるための誤ったテキスト特徴を生成する。
そこで本研究では,テキスト埋め込みと幾何学的特徴に基づくモデルの3次元認識を,シンプルで効果的な2つの手法で強化することを提案する。
まず、テキストクエリにおける距離記述子の多様性を増大させることにより、異なるユニット間のマッピング関係の理解を深める3Dテキスト拡張(3DTE)という前処理手法を提案する。
次に、基本的なテキスト特徴を幾何学的に一貫した空間に投影することにより、3Dテキスト情報をさらに強化するテキストガイド幾何拡張(TGE)モジュールを提案する。
これらの3D強化されたテキスト機能は、幾何学的特徴の注意を正確に導くために活用される。
提案手法を,Mono3DReferデータセットの広範囲な比較とアブレーション研究により評価した。
実験の結果、従来の手法よりも大幅に改善され、"Far"シナリオで11.94\%の精度で新しい最先端結果が得られた。
私たちのコードは公開されます。
関連論文リスト
- 3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。
屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文 参考訳(メタデータ) (2025-06-11T09:18:36Z) - Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces [52.237827968294766]
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。
次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
私たちの作品は、3Dユニモーダルとテキストの特徴空間のトレーニング後のアライメントのベースラインを確立するのに役立つ最初の作品です。
論文 参考訳(メタデータ) (2025-03-07T09:51:56Z) - SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation [21.070154402838906]
クロスモーダルな3D検索は,テキスト記述と3次元形状の相互マッチングを実現することを目的としている。
3Dデータの不足と高価さは、既存のクロスモーダルな3D検索手法の性能を制約する。
クロスモーダル3D検索のための新しい3D形状とキャプションオンラインデータ拡張手法であるSCA3Dを紹介する。
論文 参考訳(メタデータ) (2025-02-26T13:36:40Z) - Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:49:59Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。