論文の概要: Mx2M: Masked Cross-Modality Modeling in Domain Adaptation for 3D
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.04231v1
- Date: Sun, 9 Jul 2023 17:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:39:19.690065
- Title: Mx2M: Masked Cross-Modality Modeling in Domain Adaptation for 3D
Semantic Segmentation
- Title(参考訳): mx2m:3次元意味セグメンテーションのための領域適応におけるマスク型クロスモダリティモデリング
- Authors: Boxiang Zhang, Zunran Wang, Yonggen Ling, Yuanyuan Guan, Shenghao
Zhang, Wenhui Li
- Abstract要約: 3次元セマンティックセグメンテーションのための既存のクロスモーダル領域適応法は、2D-3D相補性によってのみ結果を予測する。
Mx2Mは,マスキングを用いたクロスモーダルモデルを用いて,大きな領域ギャップを低減する手法を提案する。
- 参考スコア(独自算出の注目度): 11.756689018000124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods of cross-modal domain adaptation for 3D semantic
segmentation predict results only via 2D-3D complementarity that is obtained by
cross-modal feature matching. However, as lacking supervision in the target
domain, the complementarity is not always reliable. The results are not ideal
when the domain gap is large. To solve the problem of lacking supervision, we
introduce masked modeling into this task and propose a method Mx2M, which
utilizes masked cross-modality modeling to reduce the large domain gap. Our
Mx2M contains two components. One is the core solution, cross-modal removal and
prediction (xMRP), which makes the Mx2M adapt to various scenarios and provides
cross-modal self-supervision. The other is a new way of cross-modal feature
matching, the dynamic cross-modal filter (DxMF) that ensures the whole method
dynamically uses more suitable 2D-3D complementarity. Evaluation of the Mx2M on
three DA scenarios, including Day/Night, USA/Singapore, and A2D2/SemanticKITTI,
brings large improvements over previous methods on many metrics.
- Abstract(参考訳): 3次元セマンティックセグメンテーションのための既存のクロスモーダル領域適応法は、クロスモーダル特徴マッチングによって得られる2D-3D相補性によってのみ結果を予測する。
しかし、対象ドメインの監督が欠如しているため、相補性は常に信頼できるとは限らない。
ドメインギャップが大きい場合、結果は理想的ではありません。
監視の欠如を解決するため,マスクドモデリングを課題に導入し,マスクド・クロスモダリティ・モデリングを用いて大きなドメインギャップを低減する手法Mx2Mを提案する。
私たちのMx2Mには2つのコンポーネントがあります。
ひとつは、Mx2Mを様々なシナリオに適応させ、クロスモーダルな自己スーパービジョンを提供する、クロスモーダルな除去と予測(xMRP)である。
もう1つはクロスモーダルな特徴マッチングの新しい方法である動的クロスモーダルフィルタ(DxMF)で、メソッド全体がより適切な2D-3D相補性を動的に使用できるようにする。
DAシナリオにおけるMx2Mの評価には、Day/Night、USA/Singapore、A2D2/SemanticKITTIなどがある。
関連論文リスト
- MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box
Annotations for Autonomous Driving [13.08936676096554]
我々はMultimodal Weakly Supervised Instance (MWSIS)と呼ばれる新しいフレームワークを提案する。
MWSISは、様々な細粒度ラベルの生成と修正モジュールを2Dと3Dの両方に組み込んでいる。
完全に教師されたインスタンスセグメンテーションよりも優れており、完全に教師されたアノテーションはわずか5%である。
論文 参考訳(メタデータ) (2023-12-12T05:12:22Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D
Representation for 3D Perception in Autonomous Driving [51.37470133438836]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation [82.47872784972861]
対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
論文 参考訳(メタデータ) (2023-08-05T14:00:05Z) - Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation [14.30113021974841]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
論文 参考訳(メタデータ) (2023-04-06T10:59:43Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文 参考訳(メタデータ) (2022-05-24T04:56:55Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - Cross-modal Center Loss [28.509817129759014]
クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。
本稿では,メタデータを用いたクロスモーダル検索フレームワークのコンポーネントを共同で学習する手法を提案する。
提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。
論文 参考訳(メタデータ) (2020-08-08T17:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。