論文の概要: Mx2M: Masked Cross-Modality Modeling in Domain Adaptation for 3D
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.04231v1
- Date: Sun, 9 Jul 2023 17:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:39:19.690065
- Title: Mx2M: Masked Cross-Modality Modeling in Domain Adaptation for 3D
Semantic Segmentation
- Title(参考訳): mx2m:3次元意味セグメンテーションのための領域適応におけるマスク型クロスモダリティモデリング
- Authors: Boxiang Zhang, Zunran Wang, Yonggen Ling, Yuanyuan Guan, Shenghao
Zhang, Wenhui Li
- Abstract要約: 3次元セマンティックセグメンテーションのための既存のクロスモーダル領域適応法は、2D-3D相補性によってのみ結果を予測する。
Mx2Mは,マスキングを用いたクロスモーダルモデルを用いて,大きな領域ギャップを低減する手法を提案する。
- 参考スコア(独自算出の注目度): 11.756689018000124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods of cross-modal domain adaptation for 3D semantic
segmentation predict results only via 2D-3D complementarity that is obtained by
cross-modal feature matching. However, as lacking supervision in the target
domain, the complementarity is not always reliable. The results are not ideal
when the domain gap is large. To solve the problem of lacking supervision, we
introduce masked modeling into this task and propose a method Mx2M, which
utilizes masked cross-modality modeling to reduce the large domain gap. Our
Mx2M contains two components. One is the core solution, cross-modal removal and
prediction (xMRP), which makes the Mx2M adapt to various scenarios and provides
cross-modal self-supervision. The other is a new way of cross-modal feature
matching, the dynamic cross-modal filter (DxMF) that ensures the whole method
dynamically uses more suitable 2D-3D complementarity. Evaluation of the Mx2M on
three DA scenarios, including Day/Night, USA/Singapore, and A2D2/SemanticKITTI,
brings large improvements over previous methods on many metrics.
- Abstract(参考訳): 3次元セマンティックセグメンテーションのための既存のクロスモーダル領域適応法は、クロスモーダル特徴マッチングによって得られる2D-3D相補性によってのみ結果を予測する。
しかし、対象ドメインの監督が欠如しているため、相補性は常に信頼できるとは限らない。
ドメインギャップが大きい場合、結果は理想的ではありません。
監視の欠如を解決するため,マスクドモデリングを課題に導入し,マスクド・クロスモダリティ・モデリングを用いて大きなドメインギャップを低減する手法Mx2Mを提案する。
私たちのMx2Mには2つのコンポーネントがあります。
ひとつは、Mx2Mを様々なシナリオに適応させ、クロスモーダルな自己スーパービジョンを提供する、クロスモーダルな除去と予測(xMRP)である。
もう1つはクロスモーダルな特徴マッチングの新しい方法である動的クロスモーダルフィルタ(DxMF)で、メソッド全体がより適切な2D-3D相補性を動的に使用できるようにする。
DAシナリオにおけるMx2Mの評価には、Day/Night、USA/Singapore、A2D2/SemanticKITTIなどがある。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Fusion-then-Distillation: Toward Cross-modal Positive Distillation for Domain Adaptive 3D Semantic Segmentation [27.86459705741855]
クロスモーダルな非教師付きドメイン適応では、ソースドメインデータ(例:合成)に基づいて訓練されたモデルは、ターゲットアノテーションにアクセスすることなく、ターゲットドメインデータ(例:現実世界)に適応する。
従来の手法では、異なる領域で一致可能なクラス確率分布を強制する、各領域における相互に相互にモダル出力を模倣しようとする。
そこで本研究では,3次元セマンティックセグメンテーションのためのソースとターゲットドメインの相互正の蒸留を探索する,新しい核融合式蒸留法(FtD++)を提案する。
論文 参考訳(メタデータ) (2024-10-25T10:14:48Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box
Annotations for Autonomous Driving [13.08936676096554]
我々はMultimodal Weakly Supervised Instance (MWSIS)と呼ばれる新しいフレームワークを提案する。
MWSISは、様々な細粒度ラベルの生成と修正モジュールを2Dと3Dの両方に組み込んでいる。
完全に教師されたインスタンスセグメンテーションよりも優れており、完全に教師されたアノテーションはわずか5%である。
論文 参考訳(メタデータ) (2023-12-12T05:12:22Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文 参考訳(メタデータ) (2022-05-24T04:56:55Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - Cross-modal Center Loss [28.509817129759014]
クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。
本稿では,メタデータを用いたクロスモーダル検索フレームワークのコンポーネントを共同で学習する手法を提案する。
提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。
論文 参考訳(メタデータ) (2020-08-08T17:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。