論文の概要: Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2506.22817v1
- Date: Sat, 28 Jun 2025 08:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.585864
- Title: Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding
- Title(参考訳): 多視点核融合ポテンシャルの解放:3次元オープン語彙理解のためのVLMにおける雑音補正
- Authors: Xingyilang Yin, Jiale Wang, Xi Yang, Mutian Xu, Xu Gu, Nannan Wang,
- Abstract要約: MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。
具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。
ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
- 参考スコア(独自算出の注目度): 15.86865606131156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent open-vocabulary 3D scene understanding approaches mainly focus on training 3D networks through contrastive learning with point-text pairs or by distilling 2D features into 3D models via point-pixel alignment. While these methods show considerable performance in benchmarks with limited vocabularies, they struggle to handle diverse object categories as the limited amount of 3D data upbound training strong open-vocabulary 3d models. We observe that 2D multi-view fusion methods take precedence in understanding diverse concepts in 3D scenes. However, inherent noises in vision-language models lead multi-view fusion to sub-optimal performance. To this end, we introduce MVOV3D, a novel approach aimed at unleashing the potential of 2D multi-view fusion for open-vocabulary 3D scene understanding. We focus on reducing the inherent noises without training, thereby preserving the generalizability while enhancing open-world capabilities. Specifically, MVOV3D improves multi-view 2D features by leveraging precise region-level image features and text features encoded by CLIP encoders and incorporates 3D geometric priors to optimize multi-view fusion. Extensive experiments on various datasets demonstrate the effectiveness of our method. Notably, our MVOV3D achieves a new record with 14.7% mIoU on ScanNet200 and 16.2% mIoU on Matterport160 for challenge open-vocabulary semantic segmentation, outperforming current leading trained 3D networks by a significant margin.
- Abstract(参考訳): 近年のオープン・ボキャブラリ3Dシーン理解アプローチは,ポイントテキストペアによる対照的な学習や,ポイントピクセルアライメントによる2次元特徴の3次元モデルへの抽出などにより,3Dネットワークのトレーニングに重点を置いている。
これらの手法は、限られた語彙を持つベンチマークにおいてかなりの性能を示すが、3Dデータアップバウンドの限られた量で強力なオープン語彙の3dモデルを訓練するため、多様なオブジェクトカテゴリを扱うのに苦労している。
2次元多視点融合法が3次元シーンにおける多様な概念の理解に優先することが観察された。
しかし、視覚言語モデルに固有のノイズは、マルチビュー融合を準最適性能に導く。
この目的のために,オープンな3次元シーン理解のための2次元多視点融合の可能性を解き明かす新しい手法であるMVOV3Dを紹介する。
我々は、訓練なしで固有のノイズを減らすことに集中し、これにより、オープンワールドの能力を高めつつ、一般化性を維持する。
具体的には、MVOV3Dは、CLIPエンコーダによって符号化された正確な領域レベルの画像特徴とテキスト特徴を活用して、マルチビュー融合を最適化するために3次元幾何学的事前を組み込むことにより、マルチビュー2D機能を改善する。
各種データセットに対する大規模な実験により,本手法の有効性が示された。
特に、我々のMVOV3Dは、ScanNet200で14.7% mIoU、Matterport160で16.2% mIoU、オープン語彙セマンティックセマンティックセグメンテーションに挑戦して新しい記録を達成した。
関連論文リスト
- PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。