論文の概要: AHDGAN: An Attention-Based Generator and Heterogeneous Dual-Discriminator Generative Adversarial Network for Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2404.15992v2
- Date: Tue, 9 Jul 2024 08:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:10:19.222180
- Title: AHDGAN: An Attention-Based Generator and Heterogeneous Dual-Discriminator Generative Adversarial Network for Infrared and Visible Image Fusion
- Title(参考訳): AHDGAN:赤外・可視画像融合のためのアテンションベースジェネレータと異種デュアルディスクリミネータ生成アドバイザネットワーク
- Authors: Guosheng Lu, Zile Fang, Chunming He, Zhigang Zhao,
- Abstract要約: 赤外線・可視画像融合(IVIF)は、可視画像からテクスチャの詳細を統合しつつ、赤外線画像からの熱放射情報を保存することを目的としている。
既存の2つの識別器 GAN (Generative Adversarial Networks) は2つの同一の識別器を用いて、異なる種類の情報を学ぶ際にモデルを導く。
本稿では、赤外・可視画像融合のための新しい注意ベースジェネレータと異種二重識別器生成対向ネットワーク(AHDGAN)を提案する。
- 参考スコア(独自算出の注目度): 1.3874486202578669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion (IVIF) aims to preserve thermal radiation information from infrared images while integrating texture details from visible images. The differences that infrared images primarily express thermal radiation through image intensity while visible images mainly represent texture details via image gradients, has long been considered a significant obstacle to IVIF technology development. Existing dual-discriminator Generative Adversarial Networks (GANs) use two identical discriminators to guide the model in learning different types of information. However, given the intrinsic differences between infrared and visible images, using two heterogeneous discriminators is more effective. This paper proposes a novel attention-based generator and heterogeneous dual-discriminator generative adversarial network (AHDGAN) for infrared and visible image fusion. Specifically, the model employs two structurally different discriminators to address the distinct learning needs of infrared and visible image information. These include a global discriminator for thermal radiation information and a Markovian discriminator for detailed information. Additionally, different multi-scale attention modules are introduced to help the discriminators focus better on their respective source images. Based on this, to integrate the learned information from different source images effectively, an attention mechanism is designed in the generator to construct an information fusion layer. This approach guides the model to learn thermal radiation information from infrared images while simultaneously capturing texture details from visible images. Extensive experiments on various public datasets demonstrate the superiority of our proposed AHDGAN over other state-of-the-art (SOTA) algorithms, highlighting its enhanced potential for practical applications.
- Abstract(参考訳): 赤外線・可視画像融合(IVIF)は、可視画像からテクスチャの詳細を統合しつつ、赤外線画像からの熱放射情報を保存することを目的としている。
赤外線画像が主に画像強度で熱放射を表現しているのに対し、可視画像は画像勾配でテクスチャの詳細を表現している点の違いは、長い間IVIF技術の発達において重要な障害と考えられてきた。
既存の2つの識別器 GAN (Generative Adversarial Networks) は2つの同一の識別器を用いて、異なるタイプの情報を学ぶ際にモデルを導く。
しかし、赤外画像と可視画像の本質的な違いを考えると、2つの異種判別器の方が効果的である。
本稿では、赤外・可視画像融合のための新しい注意ベースジェネレータと異種二重識別器生成対向ネットワーク(AHDGAN)を提案する。
具体的には、赤外線と可視画像情報の異なる学習ニーズに対応するために、2つの構造的に異なる識別器を用いる。
これには、熱放射情報のためのグローバル判別器と、詳細な情報のためのマルコフ判別器が含まれる。
さらに、異なるマルチスケールアテンションモジュールを導入して、識別者がそれぞれのソースイメージをよりよくフォーカスできるようにする。
これに基づいて、異なるソース画像からの学習情報を効果的に統合するために、ジェネレータ内にアテンション機構を設計し、情報融合層を構築する。
提案手法では,赤外線画像からの熱放射情報を学習し,同時にテクスチャの詳細を可視化する。
様々な公開データセットに対する大規模な実験は、提案したAHDGANが他の最先端(SOTA)アルゴリズムよりも優れていることを示した。
関連論文リスト
- IAIFNet: An Illumination-Aware Infrared and Visible Image Fusion Network [13.11361803763253]
我々はIAIFNetという名前のイルミネーション対応赤外線・可視画像融合ネットワークを提案する。
本フレームワークでは,まず,入力画像の入射照明マップを推定する。
適応微分融合モジュール (ADFM) と有向目標認識モジュール (STAM) の助けを借りて, 画像融合ネットワークは, 照明付赤外線と可視画像の有向的特徴を高画質の融合画像に効果的に統合する。
論文 参考訳(メタデータ) (2023-09-26T15:12:29Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - An Attention-Guided and Wavelet-Constrained Generative Adversarial
Network for Infrared and Visible Image Fusion [10.900528467160816]
我々は、赤外・可視画像融合(AWFGAN)のための注意誘導・ウェーブレット拘束型GANを提案する。
具体的には,空間アテンションモジュール(SAM)をジェネレータに導入し,空間アテンションマップを取得する。
我々は、可視情報の識別範囲をウェーブレット部分空間に拡張し、生成元に可視画像の高周波の詳細を復元させる。
論文 参考訳(メタデータ) (2022-10-20T05:01:20Z) - Visible and Near Infrared Image Fusion Based on Texture Information [4.718295968108302]
テクスチャ情報に基づく新しい可視・近赤外融合法を提案する。
従来の可視・近赤外画像融合法におけるアーティファクト,情報損失,ノイズの問題を解決することを目的としている。
実験の結果,提案アルゴリズムは可視・近赤外画像のスペクトル特性とユニークな情報を保存することができることがわかった。
論文 参考訳(メタデータ) (2022-07-22T09:02:17Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Dual Contrastive Loss and Attention for GANs [82.713118646294]
この損失により、識別器はより一般化され、識別可能な表現を学習し、生成をインセンティブ化することを示す。
最近の最先端モデルでは使われていないものの、画像生成にはまだ重要なモジュールとして注目が集まっている。
これらの救済策の強みを組み合わせることで、Fr'echet Inception Distance(FID)をいくつかのベンチマークデータセットで少なくとも17.5%改善します。
論文 参考訳(メタデータ) (2021-03-31T01:10:26Z) - UMLE: Unsupervised Multi-discriminator Network for Low Light Enhancement [8.887169648516844]
低照度シナリオはビジョンベースのアプリケーションに深刻な影響を与える。
複数判別器を含むリアルタイム非監視生成対人ネットワーク(GAN)を提案する。
本手法は, 定性評価および定量評価において, 最新の手法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2020-12-24T09:48:56Z) - Exploring Thermal Images for Object Detection in Underexposure Regions
for Autonomous Driving [67.69430435482127]
アンダーエクスポージャー地域は、安全な自動運転のための周囲の完全な認識を構築するのに不可欠である。
サーマルカメラが利用可能になったことで、他の光学センサーが解釈可能な信号を捉えていない地域を探索するための重要な代替手段となった。
本研究は,可視光画像から熱画像へ学習を伝達するためのスタイル伝達手法を用いたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:59:09Z) - Interpreting Galaxy Deblender GAN from the Discriminator's Perspective [50.12901802952574]
本研究は、ネットワークの主要なコンポーネントである識別器の動作に焦点を当てるが、しばしば見落とされがちな役割を担っている。
本手法は, 生成銀河画像と地中真理画像とを区別する際に, 識別器の注意領域を明確に明らかにする。
論文 参考訳(メタデータ) (2020-01-17T04:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。