論文の概要: Multimodal Feature Fusion Network with Text Difference Enhancement for Remote Sensing Change Detection
- arxiv url: http://arxiv.org/abs/2509.03961v1
- Date: Thu, 04 Sep 2025 07:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.090934
- Title: Multimodal Feature Fusion Network with Text Difference Enhancement for Remote Sensing Change Detection
- Title(参考訳): テキスト差分強調によるリモートセンシング変化検出のためのマルチモーダル特徴融合ネットワーク
- Authors: Yijun Zhou, Yikui Zhai, Zilu Ying, Tingfeng Xian, Wenlve Zhou, Zhiheng Zhou, Xiaolin Tian, Xudong Jia, Hongsheng Zhang, C. L. Philip Chen,
- Abstract要約: MMChangeは画像とテキストのモダリティを組み合わせて精度とロバスト性を高めるマルチモーダルRSCD手法である。
画像特徴のセマンティックな制限を克服するために、視覚言語モデル(VLM)を用いてバイテンポラル画像の意味的記述を生成する。
テキスト差分拡張(TDE)モジュールは細粒度のセマンティックシフトをキャプチャし、モデルを意味のある変化へと導く。
- 参考スコア(独自算出の注目度): 36.96267014127019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep learning has advanced remote sensing change detection (RSCD), most methods rely solely on image modality, limiting feature representation, change pattern modeling, and generalization especially under illumination and noise disturbances. To address this, we propose MMChange, a multimodal RSCD method that combines image and text modalities to enhance accuracy and robustness. An Image Feature Refinement (IFR) module is introduced to highlight key regions and suppress environmental noise. To overcome the semantic limitations of image features, we employ a vision language model (VLM) to generate semantic descriptions of bitemporal images. A Textual Difference Enhancement (TDE) module then captures fine grained semantic shifts, guiding the model toward meaningful changes. To bridge the heterogeneity between modalities, we design an Image Text Feature Fusion (ITFF) module that enables deep cross modal integration. Extensive experiments on LEVIRCD, WHUCD, and SYSUCD demonstrate that MMChange consistently surpasses state of the art methods across multiple metrics, validating its effectiveness for multimodal RSCD. Code is available at: https://github.com/yikuizhai/MMChange.
- Abstract(参考訳): 深層学習には高度なリモートセンシング変化検出(RSCD)があるが、ほとんどの手法は画像のモダリティ、特徴表現の制限、変化パターンのモデリング、特に照明やノイズ障害下での一般化にのみ依存している。
そこで本稿では,画像とテキストのモダリティを組み合わせたマルチモーダルRSCD手法MMChangeを提案する。
IFR(Image Feature Refinement)モジュールは、キー領域をハイライトし、環境騒音を抑制するために導入された。
画像特徴のセマンティックな制限を克服するために、視覚言語モデル(VLM)を用いてバイテンポラル画像の意味的記述を生成する。
テキスト差分拡張(TDE)モジュールは細粒度のセマンティックシフトをキャプチャし、モデルを意味のある変化へと導く。
モーダル間の不均一性をブリッジするために,深いクロスモーダル統合を可能にする画像テキスト特徴融合(ITFF)モジュールを設計する。
LEVIRCD、WHUCD、SYSUCDに関する大規模な実験により、MMChangeは複数のメトリクスにわたる最先端の手法を一貫して超え、マルチモーダルRSCDの有効性を検証している。
コードは、https://github.com/yikuizhai/MMChange.comで入手できる。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model [8.619958921346184]
マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
我々は,新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。
実験は、様々なマルチモーダル登録タスクにおいて、精度と効率が優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T13:32:56Z) - LDGNet: A Lightweight Difference Guiding Network for Remote Sensing Change Detection [6.554696547472252]
光リモートセンシングによる変化検出を誘導する軽量差分誘導ネットワーク(LDGNet)を提案する。
まず、軽量バックボーンネットワークの特徴表現能力を高めるために、差分誘導モジュール(DGM)を提案する。
次に,Visual State Space Model (VSSM) を用いたDADFモジュールを提案する。
論文 参考訳(メタデータ) (2025-04-07T13:33:54Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。