論文の概要: Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion
- arxiv url: http://arxiv.org/abs/2511.06593v1
- Date: Mon, 10 Nov 2025 00:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.01211
- Title: Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion
- Title(参考訳): 多モード画像融合のための空間周波数増強型マンバ
- Authors: Hui Sun, Long Lv, Pingping Zhang, Tongdan Tang, Feng Tian, Weibing Sun, Huchuan Lu,
- Abstract要約: MMIF (Multi-Modal Image Fusion) は、様々なモダリティから補完的な画像情報を統合することを目的としている。
本研究では,MMIFのための空間周波数拡張マンバ融合(SFMFusion)という新しいフレームワークを提案する。
提案手法は,6つのMMIFデータセット上での最先端手法よりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 64.5037956060757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Image Fusion (MMIF) aims to integrate complementary image information from different modalities to produce informative images. Previous deep learning-based MMIF methods generally adopt Convolutional Neural Networks (CNNs) or Transformers for feature extraction. However, these methods deliver unsatisfactory performances due to the limited receptive field of CNNs and the high computational cost of Transformers. Recently, Mamba has demonstrated a powerful potential for modeling long-range dependencies with linear complexity, providing a promising solution to MMIF. Unfortunately, Mamba lacks full spatial and frequency perceptions, which are very important for MMIF. Moreover, employing Image Reconstruction (IR) as an auxiliary task has been proven beneficial for MMIF. However, a primary challenge is how to leverage IR efficiently and effectively. To address the above issues, we propose a novel framework named Spatial-Frequency Enhanced Mamba Fusion (SFMFusion) for MMIF. More specifically, we first propose a three-branch structure to couple MMIF and IR, which can retain complete contents from source images. Then, we propose the Spatial-Frequency Enhanced Mamba Block (SFMB), which can enhance Mamba in both spatial and frequency domains for comprehensive feature extraction. Finally, we propose the Dynamic Fusion Mamba Block (DFMB), which can be deployed across different branches for dynamic feature fusion. Extensive experiments show that our method achieves better results than most state-of-the-art methods on six MMIF datasets. The source code is available at https://github.com/SunHui1216/SFMFusion.
- Abstract(参考訳): MMIF (Multi-Modal Image Fusion) は、様々なモダリティから補完的な画像情報を統合することを目的としている。
従来のディープラーニングに基づくMMIF手法は、一般的に、特徴抽出のために畳み込みニューラルネットワーク(CNN)やトランスフォーマーを採用する。
しかし、これらの手法は、CNNの受容領域が限られており、トランスフォーマーの計算コストが高いため、不満足な性能をもたらす。
最近、Mamba は線形複雑度で長距離依存をモデル化する強力な可能性を示し、MMIF に対する有望な解決策を提供している。
残念なことに、Mambaには完全な空間と周波数の知覚が欠けており、MMIFにとって非常に重要である。
さらに,画像再構成(IR)を補助課題として活用することは,MMIFにとって有益であることが証明されている。
しかし、主要な課題は、IRを効率的に効果的に活用する方法である。
以上の課題に対処するため,MMIFのための空間周波数拡張マンバフュージョン(SFMFusion)という新しいフレームワークを提案する。
具体的には、まず、MMIFとIRを結合する3分岐構造を提案する。
次に,空間周波数拡張型マンバブロック (SFMB) を提案する。
最後に、動的機能融合のために、異なるブランチにまたがってデプロイできるDynamic Fusion Mamba Block (DFMB)を提案する。
その結果、6つのMMIFデータセット上での最先端手法よりも優れた結果が得られた。
ソースコードはhttps://github.com/SunHui1216/SFMFusion.comで入手できる。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion [15.79138560700532]
我々はTmambaと呼ばれる2分岐画像融合ネットワークを提案する。
線形トランスフォーマーとMambaで構成されており、線形複雑性を維持しながらグローバルなモデリング機能を備えている。
実験の結果、我々のTmambaは赤外線可視画像融合や医用画像融合など、複数の融合タスクにおいて有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-05T03:42:11Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [19.761723108363796]
FusionMamba はコンピュータビジョンタスクにおいて CNN や Vision Transformers (ViT) が直面する課題を克服することを目的としている。
このフレームワークは動的畳み込みとチャネルアテンション機構を統合することで、視覚的状態空間モデルMambaを改善している。
実験により、FusionMambaは様々なマルチモーダル画像融合タスクや下流実験で最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - FusionMamba: Efficient Remote Sensing Image Fusion with State Space Model [35.57157248152558]
現在のディープラーニング(DL)手法は、典型的には、特徴抽出と情報統合のために畳み込みニューラルネットワーク(CNN)またはトランスフォーマーを使用する。
本研究では,効率的なリモートセンシング画像融合法であるFusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。