論文の概要: Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2503.16707v1
- Date: Thu, 20 Mar 2025 20:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:02.446762
- Title: Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding
- Title(参考訳): Open-Vocabulary 3D Scene Understandingのためのクロスモーダル・不確かさを意識したアグリゲーション
- Authors: Jinlong Li, Cristiano Saltori, Fabio Poiesi, Nicu Sebe,
- Abstract要約: CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
- 参考スコア(独自算出の注目度): 58.38294408121273
- License:
- Abstract: The lack of a large-scale 3D-text corpus has led recent works to distill open-vocabulary knowledge from vision-language models (VLMs). owever, these methods typically rely on a single VLM to align the feature spaces of 3D models within a common language space, which limits the potential of 3D models to leverage the diverse spatial and semantic capabilities encapsulated in various foundation models. In this paper, we propose Cross-modal and Uncertainty-aware Agglomeration for Open-vocabulary 3D Scene Understanding dubbed CUA-O3D, the first model to integrate multiple foundation models-such as CLIP, DINOv2, and Stable Diffusion-into 3D scene understanding. We further introduce a deterministic uncertainty estimation to adaptively distill and harmonize the heterogeneous 2D feature embeddings from these models. Our method addresses two key challenges: (1) incorporating semantic priors from VLMs alongside the geometric knowledge of spatially-aware vision foundation models, and (2) using a novel deterministic uncertainty estimation to capture model-specific uncertainties across diverse semantic and geometric sensitivities, helping to reconcile heterogeneous representations during training. Extensive experiments on ScanNetV2 and Matterport3D demonstrate that our method not only advances open-vocabulary segmentation but also achieves robust cross-domain alignment and competitive spatial perception capabilities. The code will be available at \href{https://github.com/TyroneLi/CUA_O3D}{CUA_O3D}.
- Abstract(参考訳): 大規模な3Dテキストコーパスの欠如は、視覚言語モデル(VLM)からオープン語彙知識を抽出する最近の研究につながっている。
これらの手法は一般的に、共通言語空間内の3Dモデルの特徴空間を整列するために単一のVLMに依存しており、様々な基礎モデルにカプセル化されている多様な空間的および意味的能力を活用するために、3Dモデルの潜在能力を制限している。
本稿では,CLIP,DINOv2,Stable Diffusion-into 3Dといった複数の基礎モデルを統合する最初のモデルであるCUA-O3Dと呼ばれるオープンボキャブラリー3Dシーン理解のためのクロスモーダル・不確実性認識アグロメーションを提案する。
さらに、これらのモデルから不均一な2次元特徴埋め込みを適応的に蒸留し調和させる決定論的不確実性推定を導入する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティック先行を取り入れること,(2)新しい決定論的不確実性推定を用いて,多種多様な意味的・幾何学的感性にまたがるモデル固有の不確かさを捉え,訓練中の異種表現の再現を支援すること,の2つの課題に対処する。
ScanNetV2 と Matterport3D の広範囲にわたる実験により,本手法は開語彙セグメンテーションを前進させるだけでなく,強靭なクロスドメインアライメントと空間認識能力も達成できることを示した。
コードは \href{https://github.com/TyroneLi/CUA_O3D}{CUA_O3D} で入手できる。
関連論文リスト
- Adapting Human Mesh Recovery with Vision-Language Feedback [17.253535686451897]
視覚言語モデルを用いて対話的な身体部分記述を生成する。
我々はテキストエンコーダとポーズVQ-VAEをトレーニングし、テキストを共有潜在空間内のボディポーズにアライメントする。
モデルは正確な3D知覚と画像の一貫性を持ったポーズを生成することができる。
論文 参考訳(メタデータ) (2025-02-06T07:42:00Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for
Open-Vocabulary 3D Detection [40.965892255504144]
FM-OV3Dは、オープンボキャブラリ3D検出のための基礎モデルに基づくクロスモーダル知識ブレンディングの手法である。
我々は,GPT-3や安定拡散モデル,CLIPのような相互識別モデルなど,生成基盤モデルの知識を活用している。
実験により,本モデルは複数の基礎モデルから知識を効率よく学習し,3次元モデルの開語彙能力を向上させることが確認された。
論文 参考訳(メタデータ) (2023-12-22T06:34:23Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。