論文の概要: BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain
Generalization of 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.06530v1
- Date: Sat, 12 Aug 2023 11:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:55:33.428130
- Title: BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain
Generalization of 3D Semantic Segmentation
- Title(参考訳): BEV-DG:3次元セマンティックセグメンテーションの領域一般化に向けた鳥の視点によるクロスモーダル学習
- Authors: Miaoyu Li, Yachao Zhang, Xu MA, Yanyun Qu, Yun Fu
- Abstract要約: クロスモーダルなUnsupervised Domain Adaptation (UDA)は、新しいドメインにおけるアノテーションの欠如を克服するために、2D-3Dデータの相補性を活用することを目的としている。
本稿では,BEV-DGと呼ばれる3次元セマンティックセグメンテーションの領域一般化(DG)に対する鳥眼図に基づくクロスモーダル学習を提案する。
- 参考スコア(独自算出の注目度): 59.99683295806698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal Unsupervised Domain Adaptation (UDA) aims to exploit the
complementarity of 2D-3D data to overcome the lack of annotation in a new
domain. However, UDA methods rely on access to the target domain during
training, meaning the trained model only works in a specific target domain. In
light of this, we propose cross-modal learning under bird's-eye view for Domain
Generalization (DG) of 3D semantic segmentation, called BEV-DG. DG is more
challenging because the model cannot access the target domain during training,
meaning it needs to rely on cross-modal learning to alleviate the domain gap.
Since 3D semantic segmentation requires the classification of each point,
existing cross-modal learning is directly conducted point-to-point, which is
sensitive to the misalignment in projections between pixels and points. To this
end, our approach aims to optimize domain-irrelevant representation modeling
with the aid of cross-modal learning under bird's-eye view. We propose
BEV-based Area-to-area Fusion (BAF) to conduct cross-modal learning under
bird's-eye view, which has a higher fault tolerance for point-level
misalignment. Furthermore, to model domain-irrelevant representations, we
propose BEV-driven Domain Contrastive Learning (BDCL) with the help of
cross-modal learning under bird's-eye view. We design three domain
generalization settings based on three 3D datasets, and BEV-DG significantly
outperforms state-of-the-art competitors with tremendous margins in all
settings.
- Abstract(参考訳): クロスモーダルなUnsupervised Domain Adaptation (UDA)は、新しいドメインにおけるアノテーションの欠如を克服するために、2D-3Dデータの相補性を活用することを目的としている。
しかし、UDAメソッドはトレーニング中にターゲットドメインへのアクセスに依存するため、トレーニングされたモデルは特定のターゲットドメインでのみ動作する。
そこで我々は,BEV-DGと呼ばれる3次元セマンティックセマンティックセグメンテーションの領域一般化(DG)に対する鳥眼ビューに基づくクロスモーダル学習を提案する。
DGは、トレーニング中にターゲットドメインにアクセスできないため、ドメインギャップを軽減するために、クロスモーダルな学習に頼る必要があるため、より難しい。
3次元意味セグメンテーションは各点の分類を必要とするため、既存のクロスモーダル学習は、画素と点の間の投影の誤りに敏感な点間直接実行される。
この目的のために,鳥眼視下でのクロスモーダル学習によるドメイン非関係表現モデリングの最適化を目指す。
本稿では,点レベルの不一致に対して高い耐障害性を有する鳥眼視下でのクロスモーダル学習を行うため,bevベースの領域間融合(baf)を提案する。
さらに,鳥眼視下でのクロスモーダル学習の助けを借りて,bdcl(bev-driven domain contrastive learning)を提案する。
我々は3つの3dデータセットに基づく3つのドメイン一般化設定を設計し、bev-dgはすべての設定において大きなマージンを持つ最先端の競合相手を大きく上回っている。
関連論文リスト
- Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2024-03-15T03:58:17Z) - CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D
Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。
画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。
また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文 参考訳(メタデータ) (2024-03-06T14:12:38Z) - Domain Adaptive and Generalizable Network Architectures and Training
Strategies for Semantic Image Segmentation [108.33885637197614]
教師なしドメイン適応(UDA)とドメイン一般化(DG)により、ソースドメインでトレーニングされた機械学習モデルは、ラベルなしまたは目に見えないターゲットドメインでうまく機能する。
UDA&DGのマルチレゾリューション・フレームワークであるHRDAを提案する。このフレームワークは、細かなセグメンテーションの詳細を保存するための小さな高分解能作物の強度と、学習されたスケールの注意を伴って長距離のコンテキスト依存を捕捉する大規模な低分解能作物の強度を組み合わせたものである。
論文 参考訳(メタデータ) (2023-04-26T15:18:45Z) - Bi3D: Bi-domain Active Learning for Cross-domain 3D Object Detection [32.29833072399945]
クロスドメインな3Dオブジェクト検出タスクを解決するために,Biドメインのアクティブな学習手法,すなわちBi3Dを提案する。
Bi3D は UDA ベースの作業 (84.29%) と比較して有望な目標領域検出精度 (KITTI の89.63%) を達成する。
論文 参考訳(メタデータ) (2023-03-10T12:38:37Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。
既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。
我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文 参考訳(メタデータ) (2021-07-23T17:19:23Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。