論文の概要: Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion
- arxiv url: http://arxiv.org/abs/2508.15505v1
- Date: Thu, 21 Aug 2025 12:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.323544
- Title: Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion
- Title(参考訳): マルチモーダル画像融合のためのタスク一般化型適応型クロスドメイン学習
- Authors: Mengyu Wang, Zhenyu Liu, Kun Li, Yu Wang, Yuwei Wang, Yanyan Wei, Fei Wang,
- Abstract要約: MMIF(Multimodal Image Fusion)は、個々のセンサーの限界を克服するために、様々な画像モダリティから補完的な情報を統合することを目的としている。
現在のMMIF法は、モダリティの誤り、高周波詳細破壊、タスク固有の制限といった課題に直面している。
適応型クロスドメイン・コフュージョン学習によるタスク一般化MMIFのための新しいフレームワークであるAdaSFFuseを提案する。
- 参考スコア(独自算出の注目度): 15.666336202108862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Image Fusion (MMIF) aims to integrate complementary information from different imaging modalities to overcome the limitations of individual sensors. It enhances image quality and facilitates downstream applications such as remote sensing, medical diagnostics, and robotics. Despite significant advancements, current MMIF methods still face challenges such as modality misalignment, high-frequency detail destruction, and task-specific limitations. To address these challenges, we propose AdaSFFuse, a novel framework for task-generalized MMIF through adaptive cross-domain co-fusion learning. AdaSFFuse introduces two key innovations: the Adaptive Approximate Wavelet Transform (AdaWAT) for frequency decoupling, and the Spatial-Frequency Mamba Blocks for efficient multimodal fusion. AdaWAT adaptively separates the high- and low-frequency components of multimodal images from different scenes, enabling fine-grained extraction and alignment of distinct frequency characteristics for each modality. The Spatial-Frequency Mamba Blocks facilitate cross-domain fusion in both spatial and frequency domains, enhancing this process. These blocks dynamically adjust through learnable mappings to ensure robust fusion across diverse modalities. By combining these components, AdaSFFuse improves the alignment and integration of multimodal features, reduces frequency loss, and preserves critical details. Extensive experiments on four MMIF tasks -- Infrared-Visible Image Fusion (IVF), Multi-Focus Image Fusion (MFF), Multi-Exposure Image Fusion (MEF), and Medical Image Fusion (MIF) -- demonstrate AdaSFFuse's superior fusion performance, ensuring both low computational cost and a compact network, offering a strong balance between performance and efficiency. The code will be publicly available at https://github.com/Zhen-yu-Liu/AdaSFFuse.
- Abstract(参考訳): MMIF(Multimodal Image Fusion)は、個々のセンサーの限界を克服するために、様々な画像モダリティから補完的な情報を統合することを目的としている。
画像の品質を高め、リモートセンシング、医療診断、ロボット工学といった下流の応用を促進する。
大幅な進歩にもかかわらず、現在のMMIF法は、モダリティのミスアライメント、高周波詳細破壊、タスク固有の制限といった課題に直面している。
これらの課題に対処するために,適応型クロスドメイン・コフュージョン学習によるタスク一般化MMIFのための新しいフレームワークであるAdaSFFuseを提案する。
AdaSFFuseは、周波数デカップリングのためのAdaptive Approximate Wavelet Transform (AdaWAT)と、効率的なマルチモーダル融合のためのSpatial-Frequency Mamba Blocksという2つの重要なイノベーションを紹介している。
AdaWATは、多モード画像の高周波数成分と低周波数成分を異なるシーンから適応的に分離し、各モードごとに異なる周波数特性の微細な抽出とアライメントを可能にする。
空間周波数マンバブロックは、空間領域と周波数領域の両方でのクロスドメイン融合を促進し、このプロセスを強化する。
これらのブロックは学習可能な写像を通して動的に調整し、様々なモダリティをまたいだ堅牢な融合を保証する。
これらのコンポーネントを組み合わせることで、AdaSFFuseはマルチモーダル機能のアライメントと統合を改善し、周波数損失を低減し、重要な詳細を保存する。
Infrared-Visible Image Fusion (IVF)、Multi-Focus Image Fusion (MFF)、Multi-Exposure Image Fusion (MEF)、Medical Image Fusion (MIF)の4つのMMIFタスクに対する大規模な実験は、AdaSFFuseの優れた融合性能を実証し、低計算コストとコンパクトネットワークの両面を確実にし、性能と効率のバランスを強くする。
コードはhttps://github.com/Zhen-yu-Liu/AdaSFFuse.comで公開されている。
関連論文リスト
- WIFE-Fusion:Wavelet-aware Intra-inter Frequency Enhancement for Multi-model Image Fusion [8.098063209250684]
マルチモーダル画像融合は、多様なモーダルからの情報を効果的に集約する。
既存の手法はしばしば周波数領域の特徴探索と相互関係を無視している。
本稿では,周波数領域間の相互作用に基づくマルチモーダル画像融合フレームワークWIFE-Fusionを提案する。
論文 参考訳(メタデータ) (2025-06-04T04:18:32Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。