論文の概要: M$^2$CD: A Unified MultiModal Framework for Optical-SAR Change Detection with Mixture of Experts and Self-Distillation
- arxiv url: http://arxiv.org/abs/2503.19406v1
- Date: Tue, 25 Mar 2025 07:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:26.010728
- Title: M$^2$CD: A Unified MultiModal Framework for Optical-SAR Change Detection with Mixture of Experts and Self-Distillation
- Title(参考訳): M$^2$CD:エキスパートと自己蒸留の混合による光SAR変化検出のための統一多モードフレームワーク
- Authors: Ziyuan Liu, Jiawei Zhang, Wenyu Wang, Yuantao Gu,
- Abstract要約: 災害応答などの極端なシナリオでは、合成開口レーダ(SAR)は、事後データの提供により適している。
これは、既存のウェイトシェアリングのSiameseネットワークが、クロスモーダルなデータ分散を学ぶのに苦労しているため、CDメソッドに新しい課題をもたらす。
この課題に対処するために,MultiModal CD フレームワーク M$2$CD を提案する。
- 参考スコア(独自算出の注目度): 26.324664674025595
- License:
- Abstract: Most existing change detection (CD) methods focus on optical images captured at different times, and deep learning (DL) has achieved remarkable success in this domain. However, in extreme scenarios such as disaster response, synthetic aperture radar (SAR), with its active imaging capability, is more suitable for providing post-event data. This introduces new challenges for CD methods, as existing weight-sharing Siamese networks struggle to effectively learn the cross-modal data distribution between optical and SAR images. To address this challenge, we propose a unified MultiModal CD framework, M$^2$CD. We integrate Mixture of Experts (MoE) modules into the backbone to explicitly handle diverse modalities, thereby enhancing the model's ability to learn multimodal data distributions. Additionally, we innovatively propose an Optical-to-SAR guided path (O2SP) and implement self-distillation during training to reduce the feature space discrepancy between different modalities, further alleviating the model's learning burden. We design multiple variants of M$^2$CD based on both CNN and Transformer backbones. Extensive experiments validate the effectiveness of the proposed framework, with the MiT-b1 version of M$^2$CD outperforming all state-of-the-art (SOTA) methods in optical-SAR CD tasks.
- Abstract(参考訳): 既存の変化検出(CD)手法の多くは、異なるタイミングで撮影された光学画像に焦点を合わせており、ディープラーニング(DL)はこの領域で顕著な成功を収めている。
しかし、災害応答などの極端なシナリオでは、そのアクティブな撮像能力を備えた合成開口レーダ(SAR)は、事後データの提供により適している。
これは、既存のウェイトシェアリングのSiameseネットワークが光学画像とSAR画像間のクロスモーダルなデータ分布を効果的に学習するのに苦労しているためである。
この課題に対処するため、我々はM$^2$CDという統合されたMultiModal CDフレームワークを提案する。
我々は、Mixture of Experts (MoE)モジュールをバックボーンに統合し、多様なモダリティを明示的に扱うことにより、マルチモーダルデータ分散を学習するモデルの能力を高める。
さらに,O2SP(Optical-to-SAR guided path)を革新的に提案し,異なるモード間の特徴空間の差を低減し,モデルの学習負担を軽減するため,訓練中に自己蒸留を行う。
CNNとTransformerの両方のバックボーンに基づいてM$^2$CDの複数の変種を設計する。
M$2$CDのMiT-b1バージョンは、光学SARCDタスクにおける全ての最先端(SOTA)メソッドより優れている。
関連論文リスト
- S2C: Learning Noise-Resistant Differences for Unsupervised Change Detection in Multimodal Remote Sensing Images [24.75086641416994]
マルチモーダルリモートセンシング(RS)画像における非時間変化検出(UCD)は難しい課題である。
近年のVisual Foundation Models(VFM)とContrastive Learning(CL)方法論の進歩に触発されて,表現中の暗黙的な知識を変化に翻訳するCL方法論の開発を目指す。
論文 参考訳(メタデータ) (2025-02-18T07:34:54Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - CDFormer:When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution [31.0941272076536]
Blind Image Super-Resolution (BSR)法は、カーネルまたは劣化情報を推定することに重点を置いているが、重要な内容の詳細を長い間見落としてきた。
本稿では,コンテンツとコンテンツ表現の両方をキャプチャする新しいBSR手法であるCDFormerを提案する。
論文 参考訳(メタデータ) (2024-05-13T11:13:17Z) - Segment Change Model (SCM) for Unsupervised Change detection in VHR Remote Sensing Images: a Case Study of Buildings [24.520190873711766]
セグメント変更モデル(SCM)と呼ばれる教師なし変更検出(CD)手法を提案する。
提案手法は,異なるスケールで抽出した特徴を再検討し,それらをトップダウンで統合し,識別的変化エッジを強化する。
論文 参考訳(メタデータ) (2023-12-27T04:47:03Z) - Contrastive Learning-Based Spectral Knowledge Distillation for
Multi-Modality and Missing Modality Scenarios in Semantic Segmentation [2.491548070992611]
CSK-Netと呼ばれる新しいマルチモーダル融合手法を提案する。
対照的な学習に基づくスペクトル知識蒸留技術を用いる。
実験の結果、CSK-Netはマルチモーダルタスクや欠落したモダリティにおいて最先端のモデルを上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-04T10:27:09Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Revisiting Consistency Regularization for Semi-supervised Change
Detection in Remote Sensing Images [60.89777029184023]
教師付きクロスエントロピー(CE)損失に加えて、教師なしCD損失を定式化する半教師付きCDモデルを提案する。
2つの公開CDデータセットを用いて実験を行った結果,提案手法は教師付きCDの性能に近づきやすいことがわかった。
論文 参考訳(メタデータ) (2022-04-18T17:59:01Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。