論文の概要: DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once
- arxiv url: http://arxiv.org/abs/2505.04526v1
- Date: Wed, 07 May 2025 15:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.14054
- Title: DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once
- Title(参考訳): DFVO:暗黒の可視光と赤外画像のアンタングルと融合を一度に学ぶ
- Authors: Qi Zhou, Yukai Shi, Xiaojun Yang, Xiaoyu Xian, Lunjia Liao, Ruimao Zhang, Liang Lin,
- Abstract要約: 可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
- 参考スコア(独自算出の注目度): 57.15043822199561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible and infrared image fusion is one of the most crucial tasks in the field of image fusion, aiming to generate fused images with clear structural information and high-quality texture features for high-level vision tasks. However, when faced with severe illumination degradation in visible images, the fusion results of existing image fusion methods often exhibit blurry and dim visual effects, posing major challenges for autonomous driving. To this end, a Darkness-Free network is proposed to handle Visible and infrared image disentanglement and fusion all at Once (DFVO), which employs a cascaded multi-task approach to replace the traditional two-stage cascaded training (enhancement and fusion), addressing the issue of information entropy loss caused by hierarchical data transmission. Specifically, we construct a latent-common feature extractor (LCFE) to obtain latent features for the cascaded tasks strategy. Firstly, a details-extraction module (DEM) is devised to acquire high-frequency semantic information. Secondly, we design a hyper cross-attention module (HCAM) to extract low-frequency information and preserve texture features from source images. Finally, a relevant loss function is designed to guide the holistic network learning, thereby achieving better image fusion. Extensive experiments demonstrate that our proposed approach outperforms state-of-the-art alternatives in terms of qualitative and quantitative evaluations. Particularly, DFVO can generate clearer, more informative, and more evenly illuminated fusion results in the dark environments, achieving best performance on the LLVIP dataset with 63.258 dB PSNR and 0.724 CC, providing more effective information for high-level vision tasks. Our code is publicly accessible at https://github.com/DaVin-Qi530/DFVO.
- Abstract(参考訳): 可視・赤外画像融合は画像融合の分野で最も重要な課題の1つであり、高レベルの視覚タスクのための明確な構造情報と高品質なテクスチャ機能を備えた融合画像を生成することを目的としている。
しかし、可視画像の激しい照明劣化に直面した場合、既存の画像融合法の融合結果は、しばしばぼやけや薄暗い視覚効果を示し、自律運転の大きな課題となっている。
この目的のために、従来の2段階のカスケードトレーニング(エンハンスメントとフュージョン)の代わりに、ケースケードのマルチタスクアプローチを採用し、階層的データ伝送による情報エントロピー損失の問題に対処する、可視・赤外画像のアンタングル化と融合のすべてを扱うためにダークネスフリーネットワークが提案されている。
具体的には,遅延特徴抽出器(LCFE)を構築し,待ち行列型タスク戦略の潜在特徴を得る。
まず、高周波意味情報を取得するために詳細抽出モジュール(DEM)を考案する。
第2に、低周波情報を抽出し、ソース画像からテクスチャの特徴を保存するための超クロスアテンションモジュール(HCAM)を設計する。
最後に、関連する損失関数は、全体論的ネットワーク学習のガイドとして設計され、より優れた画像融合を実現する。
大規模実験により,提案手法は質的,定量的な評価において最先端の代替品よりも優れていることが示された。
特に、DFVOは暗黒環境でより明確で、より情報的で、より均等に照らされた融合結果を生成し、63.258 dB PSNRと0.724 CCのLLVIPデータセット上で最高の性能を達成し、高レベルの視覚タスクに対してより効果的な情報を提供する。
私たちのコードはhttps://github.com/DaVin-Qi530/DFVO.comで公開されています。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion [21.64382683858586]
赤外線と可視画像の融合は、両モードの相補的な情報を組み合わせて、より包括的なシーン理解を提供することを目的としている。
最大領域適応型デュアルブランチ機能分解融合ネットワーク(DAF-Net)を提案する。
MK-MMDを導入することで、DAF-Netは可視画像と赤外線画像の潜在特徴空間を効果的に整列し、融合画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-09-18T02:14:08Z) - VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing [13.777195433138179]
本研究の目的は、画像デハージングのための可視赤外線融合ネットワークを設計することである。
特に,より空間的・限界的な情報を復元するための多スケール深層構造特徴抽出(DSFE)モジュールを提案する。
これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-11T14:31:11Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。