論文の概要: FSATFusion: Frequency-Spatial Attention Transformer for Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2506.10366v1
- Date: Thu, 12 Jun 2025 05:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.590913
- Title: FSATFusion: Frequency-Spatial Attention Transformer for Infrared and Visible Image Fusion
- Title(参考訳): FSATフュージョン:赤外線・可視画像融合用周波数空間アテンション変換器
- Authors: Tianpei Zhang, Jufeng Zhao, Yiming Zhu, Guangmang Cui, Yuhan Lyu,
- Abstract要約: 本稿では、FSATFusion(FSATFusion)と呼ばれるエンドツーエンドの核融合ネットワークを提案する。
FSATFusionには周波数空間アテンショントランスフォーマー(FSAT)モジュールが含まれており、ソース画像から識別された特徴を効果的に捉えている。
定性的および定量的比較実験を行い, FSATFusionの核融合特性と効率性を実証した。
- 参考スコア(独自算出の注目度): 7.54820687741891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The infrared and visible images fusion (IVIF) is receiving increasing attention from both the research community and industry due to its excellent results in downstream applications. Existing deep learning approaches often utilize convolutional neural networks to extract image features. However, the inherently capacity of convolution operations to capture global context can lead to information loss, thereby restricting fusion performance. To address this limitation, we propose an end-to-end fusion network named the Frequency-Spatial Attention Transformer Fusion Network (FSATFusion). The FSATFusion contains a frequency-spatial attention Transformer (FSAT) module designed to effectively capture discriminate features from source images. This FSAT module includes a frequency-spatial attention mechanism (FSAM) capable of extracting significant features from feature maps. Additionally, we propose an improved Transformer module (ITM) to enhance the ability to extract global context information of vanilla Transformer. We conducted both qualitative and quantitative comparative experiments, demonstrating the superior fusion quality and efficiency of FSATFusion compared to other state-of-the-art methods. Furthermore, our network was tested on two additional tasks without any modifications, to verify the excellent generalization capability of FSATFusion. Finally, the object detection experiment demonstrated the superiority of FSATFusion in downstream visual tasks. Our code is available at https://github.com/Lmmh058/FSATFusion.
- Abstract(参考訳): Infrared and visible image fusion (IVIF) は、下流アプリケーションにおける優れた結果により、研究コミュニティと産業の両方から注目を集めている。
既存のディープラーニングアプローチでは、畳み込みニューラルネットワークを使って画像の特徴を抽出することが多い。
しかし、グローバルコンテキストをキャプチャする畳み込み操作の本質的に能力は情報損失を招き、融合性能が制限される。
この制限に対処するため、周波数・空間アテンショナル・トランスフォーマー・フュージョン・ネットワーク(FSATFusion)と呼ばれるエンドツーエンドのフュージョン・ネットワークを提案する。
FSATFusionには周波数空間アテンショントランスフォーマー(FSAT)モジュールが含まれており、ソース画像から識別された特徴を効果的に捉えている。
FSATモジュールは、特徴マップから重要な特徴を抽出できる周波数空間アテンション機構(FSAM)を含む。
さらに,バニラ変圧器のグローバルコンテキスト情報を抽出する能力を高めるため,改良されたトランスフォーマーモジュール(ITM)を提案する。
定性的,定量的な比較実験を行い,FSATFusionの核融合特性と効率を他の最先端手法と比較した。
さらに、FSATFusionの優れた一般化能力を検証するために、修正なしに2つの追加タスクでネットワークを検証した。
最後に、物体検出実験により、下流視覚課題におけるFSATFusionの優位性を実証した。
私たちのコードはhttps://github.com/Lmmh058/FSATFusion.comから入手可能です。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - SFDFusion: An Efficient Spatial-Frequency Domain Fusion Network for Infrared and Visible Image Fusion [11.46957526079837]
赤外線と可視画像の融合は、目立ったターゲットと豊かなテクスチャの詳細を持つ融合画像を生成することを目的としている。
本稿では、赤外・可視画像融合のための効率的な空間周波数領域融合ネットワークを提案する。
本手法は,様々な融合計測値と視覚効果に有意な利点を有する融合画像を生成する。
論文 参考訳(メタデータ) (2024-10-30T09:17:23Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - TGFuse: An Infrared and Visible Image Fusion Approach Based on
Transformer and Generative Adversarial Network [15.541268697843037]
本稿では,軽量トランスモジュールと対向学習に基づく赤外可視画像融合アルゴリズムを提案する。
大域的相互作用力にインスパイアされた我々は、トランスフォーマー技術を用いて、効果的な大域的核融合関係を学習する。
実験により提案したモジュールの有効性が実証された。
論文 参考訳(メタデータ) (2022-01-25T07:43:30Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。