論文の概要: DIFF-MF: A Difference-Driven Channel-Spatial State Space Model for Multi-Modal Image Fusion
- arxiv url: http://arxiv.org/abs/2601.05538v1
- Date: Fri, 09 Jan 2026 05:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.848467
- Title: DIFF-MF: A Difference-Driven Channel-Spatial State Space Model for Multi-Modal Image Fusion
- Title(参考訳): DIFF-MF:マルチモード画像融合のための差動駆動チャネル空間空間モデル
- Authors: Yiming Sun, Zifan Ye, Qinghua Hu, Pengfei Zhu,
- Abstract要約: マルチモーダル画像融合は、複数のソース画像から補完的な情報を統合して、リッチなコンテンツで高品質な融合画像を生成することを目的としている。
マルチモーダル画像融合のための差動駆動型チャネル空間空間モデルDIFF-MFを提案する。
本手法は,視覚的品質と定量的評価の両方において,既存の手法よりも優れている。
- 参考スコア(独自算出の注目度): 51.07069814578009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal image fusion aims to integrate complementary information from multiple source images to produce high-quality fused images with enriched content. Although existing approaches based on state space model have achieved satisfied performance with high computational efficiency, they tend to either over-prioritize infrared intensity at the cost of visible details, or conversely, preserve visible structure while diminishing thermal target salience. To overcome these challenges, we propose DIFF-MF, a novel difference-driven channel-spatial state space model for multi-modal image fusion. Our approach leverages feature discrepancy maps between modalities to guide feature extraction, followed by a fusion process across both channel and spatial dimensions. In the channel dimension, a channel-exchange module enhances channel-wise interaction through cross-attention dual state space modeling, enabling adaptive feature reweighting. In the spatial dimension, a spatial-exchange module employs cross-modal state space scanning to achieve comprehensive spatial fusion. By efficiently capturing global dependencies while maintaining linear computational complexity, DIFF-MF effectively integrates complementary multi-modal features. Experimental results on the driving scenarios and low-altitude UAV datasets demonstrate that our method outperforms existing approaches in both visual quality and quantitative evaluation.
- Abstract(参考訳): マルチモーダル画像融合は、複数のソース画像から補完的な情報を統合して、リッチなコンテンツで高品質な融合画像を生成することを目的としている。
状態空間モデルに基づく既存のアプローチは、高い計算効率で満足度を達成しているが、可視詳細コストで赤外線強度を過度に優先順位付けするか、逆に可視構造を保ちながら熱標的塩分を減少させる傾向にある。
これらの課題を克服するために,多モード画像融合のための差動駆動型チャネル空間空間モデルDIFF-MFを提案する。
提案手法は,特徴抽出の導出にモダリティ間の特徴差マップを利用し,続いてチャネル次元と空間次元の融合処理を行う。
チャネル次元では、チャネル交換モジュールは、チャンネルワイドな相互作用を、クロスアテンションな二重状態空間モデリングによって強化し、適応的な特徴の再重み付けを可能にする。
空間次元では、空間交換モジュールはクロスモーダル状態空間走査を用いて包括的空間融合を実現する。
DIFF-MFは、線形計算複雑性を維持しながら、グローバルな依存関係を効率的にキャプチャすることで、補完的なマルチモーダル機能を効果的に統合する。
運転シナリオと低高度UAVデータセットの実験結果から,本手法は視覚的品質と定量的評価の両方において既存手法よりも優れていることが示された。
関連論文リスト
- Efficient Rectified Flow for Image Fusion [48.330480065862474]
本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。
また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。
提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-09-20T06:21:00Z) - PIF-Net: Ill-Posed Prior Guided Multispectral and Hyperspectral Image Fusion via Invertible Mamba and Fusion-Aware LoRA [0.16385815610837165]
マルチスペクトル・ハイパースペクトル画像融合(MHIF)の目的は、豊富なスペクトル情報と細かな空間的詳細を同時に持つ高品質な画像を生成することである。
これまでの研究では、データ修正が原因で生じる不適切な性質を効果的に扱っていなかった。
PIF-Net という名前の融合フレームワークを提案し,多重スペクトル画像とハイパースペクトル画像とを効果的に融合させる。
論文 参考訳(メタデータ) (2025-08-01T09:17:17Z) - A Fusion-Guided Inception Network for Hyperspectral Image Super-Resolution [4.487807378174191]
我々はFusion-Guided Inception Network (FGIN)と呼ばれる単一画像の超解像モデルを提案する。
具体的には、まずスペクトル空間融合モジュールを用いて、スペクトル情報と空間情報を効果的に統合する。
インセプションのような階層的特徴抽出戦略は、マルチスケール空間依存をキャプチャするために用いられる。
再構成品質をさらに向上するため,バイリニアと奥行き分離可能な畳み込みを組み合わせた最適化されたアップサンプリングモジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-05-06T11:15:59Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。