論文の概要: MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2309.11839v1
- Date: Thu, 21 Sep 2023 07:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:31:00.493447
- Title: MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic
Segmentation
- Title(参考訳): MoPA:3次元セマンティックセグメンテーションのためのマルチモーダル事前支援ドメイン適応
- Authors: Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Shenghai Yuan, Lihua
Xie
- Abstract要約: マルチモーダル・アン教師付きドメイン適応(MM-UDA)は、高価なポイントワイドアノテーションを使わずに自律システムに意味理解を組み込むための実用的なソリューションである。
従来のMM-UDAメソッドは、クラス不均衡な性能に悩まされ、実際のアプリケーションでの利用を制限する。
本稿では,レアオブジェクトの性能向上を目的としたマルチモーダルプライオリティ・エイドド(MoPA)ドメイン適応を提案する。
- 参考スコア(独自算出の注目度): 38.42077782990957
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-modal unsupervised domain adaptation (MM-UDA) for 3D semantic
segmentation is a practical solution to embed semantic understanding in
autonomous systems without expensive point-wise annotations. While previous
MM-UDA methods can achieve overall improvement, they suffer from significant
class-imbalanced performance, restricting their adoption in real applications.
This imbalanced performance is mainly caused by: 1) self-training with
imbalanced data and 2) the lack of pixel-wise 2D supervision signals. In this
work, we propose Multi-modal Prior Aided (MoPA) domain adaptation to improve
the performance of rare objects. Specifically, we develop Valid Ground-based
Insertion (VGI) to rectify the imbalance supervision signals by inserting prior
rare objects collected from the wild while avoiding introducing artificial
artifacts that lead to trivial solutions. Meanwhile, our SAM consistency loss
leverages the 2D prior semantic masks from SAM as pixel-wise supervision
signals to encourage consistent predictions for each object in the semantic
mask. The knowledge learned from modal-specific prior is then shared across
modalities to achieve better rare object segmentation. Extensive experiments
show that our method achieves state-of-the-art performance on the challenging
MM-UDA benchmark. Code will be available at https://github.com/AronCao49/MoPA.
- Abstract(参考訳): 3次元セマンティックセグメンテーションのためのMM-UDA(Multi-modal unsupervised domain adaptation)は、高価なポイントワイドアノテーションなしで自律システムにセマンティック理解を組み込むための実用的なソリューションである。
従来のMM-UDA手法は全体的な改善を達成できるが、クラス不均衡な性能に悩まされ、実際のアプリケーションでは採用が制限される。
この不均衡なパフォーマンスは主に:
1)不均衡データによる自己学習
2)画素単位の2次元監視信号の欠如。
本研究では,レアオブジェクトの性能向上を目的としたマルチモーダルプライオリティエイド(MoPA)ドメイン適応を提案する。
具体的には,自然界から収集した既往の希少物体を挿入し,自在な解決につながる人工的アーティファクトの導入を回避し,不均衡な監視信号の補正を行う有効な地盤ベース挿入(vgi)を開発した。
一方、SAMの一貫性損失は、SAMの2D前のセマンティックマスクを画素単位の監視信号として利用し、セマンティックマスク内の各オブジェクトに対する一貫した予測を促進する。
モーダル固有の事前から学んだ知識は、より稀なオブジェクトセグメンテーションを達成するためにモダリティ間で共有される。
MM-UDAベンチマークを用いて,本手法が最先端の性能を達成することを示す。
コードはhttps://github.com/AronCao49/MoPAで入手できる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Hierarchical Disentanglement-Alignment Network for Robust SAR Vehicle
Recognition [18.38295403066007]
HDANetは機能障害とアライメントを統合フレームワークに統合する。
提案手法は,MSTARデータセットにおいて,9つの動作条件にまたがる顕著なロバスト性を示す。
論文 参考訳(メタデータ) (2023-04-07T09:11:29Z) - ADAS: A Simple Active-and-Adaptive Baseline for Cross-Domain 3D Semantic
Segmentation [38.66509154973051]
本研究では,よく訓練された3次元セグメンテーションモデルの弱いクロスドメイン一般化能力を高めるために,アクティブ・アンド・アダプティブ(ADAS)ベースラインを提案する。
ADASは、有効適応のために、ソースドメインとターゲットドメインの両方から最大不変サブセットを選択するアクティブサンプリング操作を実行する。
1) 対象ドメインからのすべてのサンプルがラベル付けされていないことを意味するUnsupervised Domain Adaptation (UDA)、2) Unsupervised Few-shot Domain Adaptation (UFDA)、つまり、ラベル付けされていないサンプルがラベル付けされていないターゲットドメインでのみ利用可能であることを意味する。
論文 参考訳(メタデータ) (2022-12-20T16:17:40Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Plugging Self-Supervised Monocular Depth into Unsupervised Domain
Adaptation for Semantic Segmentation [19.859764556851434]
セマンティックセグメンテーションのためのUDAを改善するために,自己教師付き単眼深度推定手法を提案する。
我々の提案では,GTA5->CSベンチマークで最先端性能(58.8 mIoU)を達成することができる。
論文 参考訳(メタデータ) (2021-10-13T12:48:51Z) - End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。
局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。
エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-07T09:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。