Fugu-MT 論文翻訳(概要): Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

論文の概要: Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

arxiv url: http://arxiv.org/abs/2403.10001v1
Date: Fri, 15 Mar 2024 03:58:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 18:38:56.696923
Title: Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation
Title（参考訳）: Visual Foundation Modelsが3Dセマンティックセグメンテーションのためのクロスモーダルな教師なしドメイン適応を強化
Authors: Jingyi Xu, Weidong Yang, Lingdong Kong, Youquan Liu, Rui Zhang, Qingyuan Zhou, Ben Fei,
Abstract要約: 本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
参考スコア（独自算出の注目度）: 17.875516787157018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised domain adaptation (UDA) is vital for alleviating the workload of labeling 3D point cloud data and mitigating the absence of labels when facing a newly defined domain. Various methods of utilizing images to enhance the performance of cross-domain 3D segmentation have recently emerged. However, the pseudo labels, which are generated from models trained on the source domain and provide additional supervised signals for the unseen domain, are inadequate when utilized for 3D segmentation due to their inherent noisiness and consequently restrict the accuracy of neural networks. With the advent of 2D visual foundation models (VFMs) and their abundant knowledge prior, we propose a novel pipeline VFMSeg to further enhance the cross-modal unsupervised domain adaptation framework by leveraging these models. In this work, we study how to harness the knowledge priors learned by VFMs to produce more accurate labels for unlabeled target domains and improve overall performance. We first utilize a multi-modal VFM, which is pre-trained on large scale image-text pairs, to provide supervised labels (VFM-PL) for images and point clouds from the target domain. Then, another VFM trained on fine-grained 2D masks is adopted to guide the generation of semantically augmented images and point clouds to enhance the performance of neural networks, which mix the data from source and target domains like view frustums (FrustumMixing). Finally, we merge class-wise prediction across modalities to produce more accurate annotations for unlabeled target domains. Our method is evaluated on various autonomous driving datasets and the results demonstrate a significant improvement for 3D segmentation task.
Abstract（参考訳）: 教師なしドメイン適応(UDA)は、3Dポイントクラウドデータのラベル付け作業の負荷軽減と、新たに定義されたドメインに直面するラベルの欠如軽減に不可欠である。近年,クロスドメイン3Dセグメンテーションの性能向上に画像を活用する様々な手法が出現している。しかし、ソースドメイン上でトレーニングされたモデルから生成された疑似ラベルは、その固有のノイズのために3Dセグメンテーションに使用される際には不十分であり、結果としてニューラルネットワークの精度が制限される。 2次元視覚基礎モデル(VFM)の出現と,それ以前の知識の豊富なことから,これらのモデルを活用することで,クロスモーダルな教師なしドメイン適応フレームワークをさらに強化するパイプラインVFMSegを提案する。本研究では,VFMが学習した知識を活かして,ラベルのない対象ドメインのより正確なラベルを作成し,全体的な性能を向上させる方法について検討する。まず,大規模画像テキストペア上で事前学習したマルチモーダルVFMを用いて,対象領域からの画像や点雲に対する教師付きラベル(VFM-PL)を提供する。次に、微細な2Dマスクでトレーニングされた別のVFMを採用して、意味的に拡張された画像と点雲の生成をガイドし、ニューラルネットワークのパフォーマンスを向上させる。最後に、未ラベルのターゲットドメインに対してより正確なアノテーションを生成するために、クラスワイズ予測をモダリティにマージする。本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。

関連論文リスト

Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation [14.651682743504024]
Vision Foundation Models (VFM) は、画像分類、画像分割、オブジェクトのローカライゼーションなど、多くの下流視覚タスクにおいて事実上の選択肢となっている。本稿では,ラベル付きソースからラベル付きターゲットデータへの適応のためのVFMの有用性を,LiDARに基づく3Dセマンティックセマンティックセマンティックセグメンテーションの課題に適用する。提案手法は,2D-3D(画像と点雲)のペアデータを消費し,ラベル付きソースとラベルなしターゲットデータを組み合わせた3Dバックボーンのトレーニングを行うために,VFMのロバストな(クロスドメイン)機能に依存する。
論文参考訳（メタデータ） (2025-04-19T08:53:54Z)
SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [14.007392647145448]
UDAは、ラベル付きソースドメインデータをトレーニングしながら、ラベルなしのターゲットドメインデータからモデルを学習することを可能にする。コントラスト学習を UDA に統合し,セマンティック情報を取得する能力を向上させることを提案する。我々のSimSegメソッドは既存の手法より優れ、最先端の結果が得られます。
論文参考訳（メタデータ） (2024-10-17T11:59:39Z)
FPL+: Filtered Pseudo Label-based Unsupervised Cross-Modality Adaptation for 3D Medical Image Segmentation [14.925162565630185]
医用画像分割のための拡張フィルタ擬似ラベル (FPL+) を用いたUnsupervised Domain Adaptation (UDA) 手法を提案する。まず、ソースドメイン内のラベル付き画像を、擬似ソースドメインセットと擬似ターゲットドメインセットからなる二重ドメイントレーニングセットに変換するために、クロスドメインデータ拡張を使用する。次に、ラベル付きソースドメインイメージとターゲットドメインイメージを擬似ラベルと組み合わせて最終セグメンタを訓練し、不確実性推定に基づく画像レベルの重み付けとデュアルドメインのコンセンサスに基づく画素レベルの重み付けを提案し、ノイズのある擬似の悪影響を軽減する。
論文参考訳（メタデータ） (2024-04-07T14:21:37Z)
CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文参考訳（メタデータ） (2024-03-06T14:12:38Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain Generalization of 3D Semantic Segmentation [59.99683295806698]
クロスモーダルなUnsupervised Domain Adaptation (UDA)は、新しいドメインにおけるアノテーションの欠如を克服するために、2D-3Dデータの相補性を活用することを目的としている。本稿では,BEV-DGと呼ばれる3次元セマンティックセグメンテーションの領域一般化(DG)に対する鳥眼図に基づくクロスモーダル学習を提案する。
論文参考訳（メタデータ） (2023-08-12T11:09:17Z)
SSDA3D: Semi-supervised Domain Adaptation for 3D Object Detection from Point Cloud [125.9472454212909]
本稿では,3次元物体検出(SSDA3D)のための半改良型領域適応法を提案する。 SSDA3Dはドメイン間適応ステージとドメイン内一般化ステージを含む。実験の結果,10%のラベル付きターゲットデータしか持たないSSDA3Dは,100%のターゲットラベルを持つ完全教師付きオラクルモデルを上回ることができることがわかった。
論文参考訳（メタデータ） (2022-12-06T09:32:44Z)
Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文参考訳（メタデータ） (2022-12-02T00:48:44Z)
QuadFormer: Quadruple Transformer for Unsupervised Domain Adaptation in Power Line Segmentation of Aerial Images [12.840195641761323]
ドメイン適応型セマンティックセグメンテーションのための新しいフレームワークを提案する。階層的な四重変圧器は、伝達可能なコンテキストに適応するために、クロスアテンションと自己アテンションのメカニズムを組み合わせる。 ARPLSynとARPLRealの2つのデータセットを提示し、教師なし領域適応電力線分割の研究をさらに進める。
論文参考訳（メタデータ） (2022-11-29T03:15:27Z)
Unsupervised Domain Adaptation for Monocular 3D Object Detection via Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。 STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文参考訳（メタデータ） (2022-04-25T12:23:07Z)
ST3D: Self-training for Unsupervised Domain Adaptation on 3D ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文参考訳（メタデータ） (2021-03-09T10:51:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。