論文の概要: S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2405.20881v1
- Date: Fri, 31 May 2024 14:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:08:24.868068
- Title: S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion
- Title(参考訳): S4Fusion:赤外線可視画像融合のためのサリエンシ対応選択状態空間モデル
- Authors: Haolong Ma, Hui Li, Chunyang Cheng, Gaoang Wang, Xiaoning Song, Xiaojun Wu,
- Abstract要約: 画像融合のためのS4Fusion(Saliency-aware Selective State Space Fusion Model)を提案する。
S4Fusionは、両方のモダリティからのグローバルな空間情報に焦点を合わせながら、それらの相互作用を促進する。
両方の画像から適切なターゲットを適応的に強調する。
- 参考スコア(独自算出の注目度): 17.004339962402067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As one of the tasks in Image Fusion, Infrared and Visible Image Fusion aims to integrate complementary information captured by sensors of different modalities into a single image. The Selective State Space Model (SSSM), known for its ability to capture long-range dependencies, has demonstrated its potential in the field of computer vision. However, in image fusion, current methods underestimate the potential of SSSM in capturing the global spatial information of both modalities. This limitation prevents the simultaneous consideration of the global spatial information from both modalities during interaction, leading to a lack of comprehensive perception of salient targets. Consequently, the fusion results tend to bias towards one modality instead of adaptively preserving salient targets. To address this issue, we propose the Saliency-aware Selective State Space Fusion Model (S4Fusion). In our S4Fusion, the designed Cross-Modal Spatial Awareness Module (CMSA) can simultaneously focus on global spatial information from both modalities while facilitating their interaction, thereby comprehensively capturing complementary information. Additionally, S4Fusion leverages a pre-trained network to perceive uncertainty in the fused images. By minimizing this uncertainty, S4Fusion adaptively highlights salient targets from both images. Extensive experiments demonstrate that our approach produces high-quality images and enhances performance in downstream tasks.
- Abstract(参考訳): Image Fusionのタスクの1つとして、赤外線と可視画像融合は、様々なモードのセンサーが捉えた補完的な情報を単一の画像に統合することを目的としている。
Selective State Space Model (SSSM)は、長距離依存を捉える能力で知られており、コンピュータビジョンの分野でその可能性を実証している。
しかし、画像融合においては、現在の手法はSSSMが両モードのグローバル空間情報を捕捉する可能性を過小評価している。
この制限は、相互作用中の両モードからグローバル空間情報の同時考慮を妨げるため、有能な目標に対する包括的認識が欠如する。
その結果、融合の結果は、適応的に健全な目標を保持するのではなく、1つのモダリティに偏りが生じる傾向にある。
この問題に対処するため、我々はS4Fusion(Saliency-aware Selective State Space Fusion Model)を提案する。
我々のS4Fusionでは、設計したCross-Modal Space Awareness Module (CMSA) は、相互の相互作用を容易にしながら、両モードのグローバル空間情報に同時に焦点を合わせ、補完情報を包括的にキャプチャすることができる。
さらに、S4Fusionは事前トレーニングされたネットワークを利用して、融合した画像の不確実性を認識する。
この不確実性を最小化することで、S4Fusionは両方の画像から適切なターゲットを適応的に強調する。
大規模な実験により,本手法は高品質な画像を生成するとともに,下流タスクの性能向上を図っている。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - FusionMamba: Efficient Remote Sensing Image Fusion with State Space Model [35.57157248152558]
現在のディープラーニング(DL)手法は、典型的には、特徴抽出と情報統合のために畳み込みニューラルネットワーク(CNN)またはトランスフォーマーを使用する。
本研究では,効率的なリモートセンシング画像融合法であるFusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network [2.7387720378113554]
我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。
一連の構造に配置された核融合、検出、セグメンテーションを含む。
視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
論文 参考訳(メタデータ) (2024-02-02T08:37:38Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。