論文の概要: A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2407.06159v3
- Date: Mon, 19 May 2025 03:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.193544
- Title: A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion
- Title(参考訳): 赤外線可視画像融合のためのセマンティック・アウェア・マルチガイドネットワーク
- Authors: Xiaoli Zhang, Liying Wang, Libo Zhao, Xiongfei Li, Siwei Ma,
- Abstract要約: 本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
- 参考スコア(独自算出の注目度): 41.34335755315773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality image fusion aims at fusing modality-specific (complementarity) and modality-shared (correlation) information from multiple source images. To tackle the problem of the neglect of inter-feature relationships, high-frequency information loss, and the limited attention to downstream tasks, this paper focuses on how to model correlation-driven decomposing features and reason high-level graph representation by efficiently extracting complementary information and aggregating multi-guided features. We propose a three-branch encoder-decoder architecture along with corresponding fusion layers as the fusion strategy. Firstly, shallow features from individual modalities are extracted by a depthwise convolution layer combined with the transformer block. In the three parallel branches of the encoder, Cross Attention and Invertible Block (CAI) extracts local features and preserves high-frequency texture details. Base Feature Extraction Module (BFE) captures long-range dependencies and enhances modality-shared information. Graph Reasoning Module (GR) is introduced to reason high-level cross-modality relations and simultaneously extract low-level detail features as CAI's modality-specific complementary information. Experiments demonstrate the competitive results compared with state-of-the-art methods in visible/infrared image fusion and medical image fusion tasks. Moreover, the proposed algorithm surpasses the state-of-the-art methods in terms of subsequent tasks, averagely scoring 8.27% mAP@0.5 higher in object detection and 5.85% mIoU higher in semantic segmentation. The code is avaliable at https://github.com/Abraham-Einstein/SMFNet/.
- Abstract(参考訳): 多モード画像融合は、複数のソース画像からモダリティ特化情報(相補性)とモダリティ共有情報(相関性)を融合することを目的としている。
本稿では,機能間関係の無視,高頻度情報損失,下流タスクへの注意の限定といった問題に対処するため,補完情報を効率的に抽出し,多目的特徴を集約することにより,相関型分解特徴をモデル化し,高レベルのグラフ表現を推論する方法に焦点をあてる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
まず、変圧器ブロックと組み合わされた奥行き畳み込み層により、個々のモーダルから浅い特徴を抽出する。
エンコーダの3つの並列ブランチでは、CAI(Cross Attention and Invertible Block)が局所的な特徴を抽出し、高周波テクスチャの詳細を保存する。
Base Feature extract Module (BFE)は、長距離依存関係をキャプチャし、モダリティ共有情報を強化する。
グラフ推論モジュール(GR)は、高レベルなクロスモダリティ関係を推論し、同時にCAIのモダリティ固有の補完情報として低レベルな詳細特徴を抽出するために導入された。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
さらに,提案アルゴリズムは,オブジェクト検出では平均8.27% mAP@0.5,セマンティックセグメンテーションでは5.85% mIoU,タスクでは最先端の手法を上回っている。
コードはhttps://github.com/Abraham-Einstein/SMFNet/で検証可能である。
関連論文リスト
- Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion [21.64382683858586]
赤外線と可視画像の融合は、両モードの相補的な情報を組み合わせて、より包括的なシーン理解を提供することを目的としている。
最大領域適応型デュアルブランチ機能分解融合ネットワーク(DAF-Net)を提案する。
MK-MMDを導入することで、DAF-Netは可視画像と赤外線画像の潜在特徴空間を効果的に整列し、融合画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-09-18T02:14:08Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。