論文の概要: DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once
- arxiv url: http://arxiv.org/abs/2505.04526v1
- Date: Wed, 07 May 2025 15:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.14054
- Title: DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once
- Title(参考訳): DFVO:暗黒の可視光と赤外画像のアンタングルと融合を一度に学ぶ
- Authors: Qi Zhou, Yukai Shi, Xiaojun Yang, Xiaoyu Xian, Lunjia Liao, Ruimao Zhang, Liang Lin,
- Abstract要約: 可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
- 参考スコア(独自算出の注目度): 57.15043822199561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible and infrared image fusion is one of the most crucial tasks in the field of image fusion, aiming to generate fused images with clear structural information and high-quality texture features for high-level vision tasks. However, when faced with severe illumination degradation in visible images, the fusion results of existing image fusion methods often exhibit blurry and dim visual effects, posing major challenges for autonomous driving. To this end, a Darkness-Free network is proposed to handle Visible and infrared image disentanglement and fusion all at Once (DFVO), which employs a cascaded multi-task approach to replace the traditional two-stage cascaded training (enhancement and fusion), addressing the issue of information entropy loss caused by hierarchical data transmission. Specifically, we construct a latent-common feature extractor (LCFE) to obtain latent features for the cascaded tasks strategy. Firstly, a details-extraction module (DEM) is devised to acquire high-frequency semantic information. Secondly, we design a hyper cross-attention module (HCAM) to extract low-frequency information and preserve texture features from source images. Finally, a relevant loss function is designed to guide the holistic network learning, thereby achieving better image fusion. Extensive experiments demonstrate that our proposed approach outperforms state-of-the-art alternatives in terms of qualitative and quantitative evaluations. Particularly, DFVO can generate clearer, more informative, and more evenly illuminated fusion results in the dark environments, achieving best performance on the LLVIP dataset with 63.258 dB PSNR and 0.724 CC, providing more effective information for high-level vision tasks. Our code is publicly accessible at https://github.com/DaVin-Qi530/DFVO.
- Abstract(参考訳): 可視・赤外画像融合は画像融合の分野で最も重要な課題の1つであり、高レベルの視覚タスクのための明確な構造情報と高品質なテクスチャ機能を備えた融合画像を生成することを目的としている。
しかし、可視画像の激しい照明劣化に直面した場合、既存の画像融合法の融合結果は、しばしばぼやけや薄暗い視覚効果を示し、自律運転の大きな課題となっている。
この目的のために、従来の2段階のカスケードトレーニング(エンハンスメントとフュージョン)の代わりに、ケースケードのマルチタスクアプローチを採用し、階層的データ伝送による情報エントロピー損失の問題に対処する、可視・赤外画像のアンタングル化と融合のすべてを扱うためにダークネスフリーネットワークが提案されている。
具体的には,遅延特徴抽出器(LCFE)を構築し,待ち行列型タスク戦略の潜在特徴を得る。
まず、高周波意味情報を取得するために詳細抽出モジュール(DEM)を考案する。
第2に、低周波情報を抽出し、ソース画像からテクスチャの特徴を保存するための超クロスアテンションモジュール(HCAM)を設計する。
最後に、関連する損失関数は、全体論的ネットワーク学習のガイドとして設計され、より優れた画像融合を実現する。
大規模実験により,提案手法は質的,定量的な評価において最先端の代替品よりも優れていることが示された。
特に、DFVOは暗黒環境でより明確で、より情報的で、より均等に照らされた融合結果を生成し、63.258 dB PSNRと0.724 CCのLLVIPデータセット上で最高の性能を達成し、高レベルの視覚タスクに対してより効果的な情報を提供する。
私たちのコードはhttps://github.com/DaVin-Qi530/DFVO.comで公開されています。
関連論文リスト
- SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [38.09521879556221]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion [21.64382683858586]
赤外線と可視画像の融合は、両モードの相補的な情報を組み合わせて、より包括的なシーン理解を提供することを目的としている。
最大領域適応型デュアルブランチ機能分解融合ネットワーク(DAF-Net)を提案する。
MK-MMDを導入することで、DAF-Netは可視画像と赤外線画像の潜在特徴空間を効果的に整列し、融合画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-09-18T02:14:08Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing [13.777195433138179]
本研究の目的は、画像デハージングのための可視赤外線融合ネットワークを設計することである。
特に,より空間的・限界的な情報を復元するための多スケール深層構造特徴抽出(DSFE)モジュールを提案する。
これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-11T14:31:11Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement [52.49231695707198]
2段階の工程で細部と色を精錬しながら、内在的な劣化と低照度画像を照らし出す。
カラー画像の定式化に触発されて,まず低照度入力からの劣化を推定し,環境照明色の歪みをシミュレーションし,そのコンテンツを精錬して拡散照明色の損失を回復した。
LOL1000データセットではPSNRで0.95dB、ExDarkデータセットでは3.18%のmAPでSOTAを上回った。
論文 参考訳(メタデータ) (2021-03-19T04:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。