論文の概要: Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2504.14231v1
- Date: Sat, 19 Apr 2025 08:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:05:06.692863
- Title: Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation
- Title(参考訳): 3次元セマンティックセグメンテーションにおけるUDAのVFMによる特徴フュージョン向上のためのモダリティガイダンスの探索
- Authors: Johannes Spoecklberger, Wei Lin, Pedro Hermosilla, Sivan Doveh, Horst Possegger, M. Jehanzeb Mirza,
- Abstract要約: Vision Foundation Models (VFM) は、画像分類、画像分割、オブジェクトのローカライゼーションなど、多くの下流視覚タスクにおいて事実上の選択肢となっている。
本稿では,ラベル付きソースからラベル付きターゲットデータへの適応のためのVFMの有用性を,LiDARに基づく3Dセマンティックセマンティックセマンティックセグメンテーションの課題に適用する。
提案手法は,2D-3D(画像と点雲)のペアデータを消費し,ラベル付きソースとラベルなしターゲットデータを組み合わせた3Dバックボーンのトレーニングを行うために,VFMのロバストな(クロスドメイン)機能に依存する。
- 参考スコア(独自算出の注目度): 14.651682743504024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) have become a de facto choice for many downstream vision tasks, like image classification, image segmentation, and object localization. However, they can also provide significant utility for downstream 3D tasks that can leverage the cross-modal information (e.g., from paired image data). In our work, we further explore the utility of VFMs for adapting from a labeled source to unlabeled target data for the task of LiDAR-based 3D semantic segmentation. Our method consumes paired 2D-3D (image and point cloud) data and relies on the robust (cross-domain) features from a VFM to train a 3D backbone on a mix of labeled source and unlabeled target data. At the heart of our method lies a fusion network that is guided by both the image and point cloud streams, with their relative contributions adjusted based on the target domain. We extensively compare our proposed methodology with different state-of-the-art methods in several settings and achieve strong performance gains. For example, achieving an average improvement of 6.5 mIoU (over all tasks), when compared with the previous state-of-the-art.
- Abstract(参考訳): Vision Foundation Models (VFM) は、画像分類、画像分割、オブジェクトのローカライゼーションなど、多くの下流視覚タスクにおいて事実上の選択肢となっている。
しかし、彼らはまた、クロスモーダル情報(例えば、ペア化された画像データから)を活用することができる下流3Dタスクに重要なユーティリティを提供することもできる。
本稿では,ラベル付きソースからラベル付きターゲットデータへの適応のためのVFMの有用性を,LiDARに基づく3Dセマンティックセマンティックセマンティックセグメンテーションの課題に適用する。
提案手法は,2D-3D(画像と点雲)のペアデータを消費し,ラベル付きソースとラベルなしターゲットデータを組み合わせた3Dバックボーンのトレーニングを行うために,VFMのロバストな(クロスドメイン)機能に依存する。
提案手法の核心には,画像と点流の両方で導かれる融合ネットワークがあり,その相対的寄与は対象領域に基づいて調整される。
提案手法を,いくつかの設定で異なる最先端手法と比較し,高い性能向上を実現する。
例えば、6.5mIoU(すべてのタスク)の平均的な改善は、以前の最先端技術と比較した場合に達成される。
関連論文リスト
- DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - VLMine: Long-Tail Data Mining with Vision Language Models [18.412533708652102]
この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。
本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。
私たちの実験は、ベースライン技術よりも大きな改善(10%から50%)を示しています。
論文 参考訳(メタデータ) (2024-09-23T19:13:51Z) - Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2024-03-15T03:58:17Z) - CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D
Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。
画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。
また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文 参考訳(メタデータ) (2024-03-06T14:12:38Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation [82.47872784972861]
対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
論文 参考訳(メタデータ) (2023-08-05T14:00:05Z) - CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition [45.16530801796705]
CrossLoc3Dは、クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法である。
CS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。
論文 参考訳(メタデータ) (2023-03-31T02:50:52Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Generation for adaption: a Gan-based approach for 3D Domain Adaption
inPoint Cloud [10.614067060304919]
Unsupervised Domain Adapt (UDA)は、ターゲットドメインラベルなしでそのような問題を解決することを目指しています。
本稿では,生成逆ネットワークを用いてソースドメインから合成データを生成する手法を提案する。
実験により,本手法は3つの一般的な3次元オブジェクト/シーンデータセットにおいて,最先端のUDA手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-02-15T07:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。