論文の概要: CrossFuse: A Novel Cross Attention Mechanism based Infrared and Visible Image Fusion Approach
- arxiv url: http://arxiv.org/abs/2406.10581v1
- Date: Sat, 15 Jun 2024 09:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:43:29.544748
- Title: CrossFuse: A Novel Cross Attention Mechanism based Infrared and Visible Image Fusion Approach
- Title(参考訳): CrossFuse: 赤外線と可視画像融合による新しいクロスアテンション機構
- Authors: Hui Li, Xiao-Jun Wu,
- Abstract要約: 補完情報を強化するために,CAM(Cross attention mechanism)を提案する。
融合画像を生成するための2段階の訓練戦略に基づく融合スキームを提案する。
実験の結果,提案手法は既存の核融合ネットワークと比較してSOTA核融合性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 9.253098561330978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal visual information fusion aims to integrate the multi-sensor data into a single image which contains more complementary information and less redundant features. However the complementary information is hard to extract, especially for infrared and visible images which contain big similarity gap between these two modalities. The common cross attention modules only consider the correlation, on the contrary, image fusion tasks need focus on complementarity (uncorrelation). Hence, in this paper, a novel cross attention mechanism (CAM) is proposed to enhance the complementary information. Furthermore, a two-stage training strategy based fusion scheme is presented to generate the fused images. For the first stage, two auto-encoder networks with same architecture are trained for each modality. Then, with the fixed encoders, the CAM and a decoder are trained in the second stage. With the trained CAM, features extracted from two modalities are integrated into one fused feature in which the complementary information is enhanced and the redundant features are reduced. Finally, the fused image can be generated by the trained decoder. The experimental results illustrate that our proposed fusion method obtains the SOTA fusion performance compared with the existing fusion networks. The codes are available at https://github.com/hli1221/CrossFuse
- Abstract(参考訳): マルチモーダル視覚情報融合は、より補完的な情報とより冗長な特徴を含む単一の画像にマルチセンサデータを統合することを目的としている。
しかし、これらの2つのモード間の大きな類似性ギャップを含む赤外線および可視画像については、補完情報は抽出が困難である。
一般的なクロスアテンションモジュールは、画像融合タスクは相補性(非相関性)にのみ焦点をあてる。
そこで本稿では,補完情報を強化するために,新しいクロスアテンション機構(CAM)を提案する。
さらに、融合画像を生成するために、2段階のトレーニング戦略に基づく融合スキームを提案する。
最初の段階では、同じアーキテクチャを持つ2つのオートエンコーダネットワークが、各モダリティのために訓練されている。
そして、固定エンコーダにより、第2段階でCAMとデコーダを訓練する。
トレーニングされたCAMでは、2つのモダリティから抽出された特徴を1つの融合特徴に統合し、補完情報が強化され、冗長な特徴が低減される。
最後に、融合画像をトレーニングされたデコーダで生成することができる。
実験の結果,提案手法は既存の核融合ネットワークと比較してSOTA核融合性能が得られることがわかった。
コードはhttps://github.com/hli1221/CrossFuseで入手できる。
関連論文リスト
- A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - A Multi-scale Information Integration Framework for Infrared and Visible
Image Fusion [50.84746752058516]
赤外線および可視画像融合は、ソース画像の強度と詳細情報を含む融合画像を生成することを目的としている。
既存の手法は主に損失関数の単純な重みを採用し、各モードの情報保持を決定する。
近赤外・可視画像融合のためのマルチスケールデュアルアテンション(MDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T14:40:05Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local
Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。
分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文 参考訳(メタデータ) (2022-10-18T13:30:52Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - A Joint Convolution Auto-encoder Network for Infrared and Visible Image
Fusion [7.799758067671958]
我々は、赤外線および可視画像融合のためのジョイント畳み込みオートエンコーダ(JCAE)ネットワークを設計する。
クロタリーナ動物の赤外線認識能力に触発され,赤外線および可視画像融合のためのジョイント・コンボリューション・オートエンコーダ(JCAE)ネットワークを設計した。
論文 参考訳(メタデータ) (2022-01-26T03:49:27Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。