論文の概要: Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion
- arxiv url: http://arxiv.org/abs/2602.04405v1
- Date: Wed, 04 Feb 2026 10:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.480017
- Title: Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion
- Title(参考訳): 多モード画像融合のための対話型空間周波数核融合マンバ
- Authors: Yixin Zhu, Long Lv, Pingping Zhang, Xuehu Liu, Tongdan Tang, Feng Tian, Weibing Sun, Huchuan Lu,
- Abstract要約: MMIF(Multi-Modal Image Fusion)は、異なるモダリティの画像を組み合わせて融合画像を作成することを目的としている。
MMIFのための対話型空間周波数フュージョン・マンバフレームワークを提案する。
私たちのISFMは、他の最先端手法よりも優れたパフォーマンスを実現できます。
- 参考スコア(独自算出の注目度): 69.13852939945433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Image Fusion (MMIF) aims to combine images from different modalities to produce fused images, retaining texture details and preserving significant information. Recently, some MMIF methods incorporate frequency domain information to enhance spatial features. However, these methods typically rely on simple serial or parallel spatial-frequency fusion without interaction. In this paper, we propose a novel Interactive Spatial-Frequency Fusion Mamba (ISFM) framework for MMIF. Specifically, we begin with a Modality-Specific Extractor (MSE) to extract features from different modalities. It models long-range dependencies across the image with linear computational complexity. To effectively leverage frequency information, we then propose a Multi-scale Frequency Fusion (MFF). It adaptively integrates low-frequency and high-frequency components across multiple scales, enabling robust representations of frequency features. More importantly, we further propose an Interactive Spatial-Frequency Fusion (ISF). It incorporates frequency features to guide spatial features across modalities, enhancing complementary representations. Extensive experiments are conducted on six MMIF datasets. The experimental results demonstrate that our ISFM can achieve better performances than other state-of-the-art methods. The source code is available at https://github.com/Namn23/ISFM.
- Abstract(参考訳): MMIF(Multi-Modal Image Fusion)は、異なるモダリティの画像を組み合わせて融合した画像を生成し、テクスチャの詳細を保持し、重要な情報を保存することを目的としている。
近年,MMIF法では空間的特徴を高めるために周波数領域情報を取り入れている。
しかし、これらの手法は通常、相互作用のない単純なシリアルまたは平行な空間周波数融合に依存している。
本稿では,MMIFのためのISFM(Interactive Spatial-Frequency Fusion Mamba)フレームワークを提案する。
具体的には、異なるモーダルから特徴を抽出するモダリティ特化指数(MSE:Modality-Specific Extractor)から始める。
画像全体にわたる長距離依存関係を線形計算複雑性でモデル化する。
周波数情報を効果的に活用するために,MFF(Multiscale Frequency Fusion)を提案する。
複数のスケールにわたる低周波成分と高周波成分を適応的に統合し、周波数特性の堅牢な表現を可能にする。
さらに重要なことは、対話型空間周波数融合(ISF)を提案することである。
周波数特徴を取り入れ、空間的特徴を様々にガイドし、相補表現を増強する。
6つのMMIFデータセットで大規模な実験を行う。
実験の結果,ISFMは他の最先端手法よりも優れた性能が得られることが示された。
ソースコードはhttps://github.com/Namn23/ISFMで入手できる。
関連論文リスト
- Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion [64.5037956060757]
MMIF (Multi-Modal Image Fusion) は、様々なモダリティから補完的な画像情報を統合することを目的としている。
本研究では,MMIFのための空間周波数拡張マンバ融合(SFMFusion)という新しいフレームワークを提案する。
提案手法は,6つのMMIFデータセット上での最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-11-10T00:44:49Z) - Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion [15.666336202108862]
MMIF(Multimodal Image Fusion)は、個々のセンサーの限界を克服するために、様々な画像モダリティから補完的な情報を統合することを目的としている。
現在のMMIF法は、モダリティの誤り、高周波詳細破壊、タスク固有の制限といった課題に直面している。
適応型クロスドメイン・コフュージョン学習によるタスク一般化MMIFのための新しいフレームワークであるAdaSFFuseを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:31:14Z) - WIFE-Fusion:Wavelet-aware Intra-inter Frequency Enhancement for Multi-model Image Fusion [8.098063209250684]
マルチモーダル画像融合は、多様なモーダルからの情報を効果的に集約する。
既存の手法はしばしば周波数領域の特徴探索と相互関係を無視している。
本稿では,周波数領域間の相互作用に基づくマルチモーダル画像融合フレームワークWIFE-Fusionを提案する。
論文 参考訳(メタデータ) (2025-06-04T04:18:32Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。