論文の概要: TGFuse: An Infrared and Visible Image Fusion Approach Based on
Transformer and Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2201.10147v1
- Date: Tue, 25 Jan 2022 07:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 15:39:53.724251
- Title: TGFuse: An Infrared and Visible Image Fusion Approach Based on
Transformer and Generative Adversarial Network
- Title(参考訳): tgfuse:transformerとgenerative adversarial networkを用いた赤外線および可視画像融合手法
- Authors: Dongyu Rao, Xiao-Jun Wu, Tianyang Xu
- Abstract要約: 本稿では,軽量トランスモジュールと対向学習に基づく赤外可視画像融合アルゴリズムを提案する。
大域的相互作用力にインスパイアされた我々は、トランスフォーマー技術を用いて、効果的な大域的核融合関係を学習する。
実験により提案したモジュールの有効性が実証された。
- 参考スコア(独自算出の注目度): 15.541268697843037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The end-to-end image fusion framework has achieved promising performance,
with dedicated convolutional networks aggregating the multi-modal local
appearance. However, long-range dependencies are directly neglected in existing
CNN fusion approaches, impeding balancing the entire image-level perception for
complex scenario fusion. In this paper, therefore, we propose an infrared and
visible image fusion algorithm based on a lightweight transformer module and
adversarial learning. Inspired by the global interaction power, we use the
transformer technique to learn the effective global fusion relations. In
particular, shallow features extracted by CNN are interacted in the proposed
transformer fusion module to refine the fusion relationship within the spatial
scope and across channels simultaneously. Besides, adversarial learning is
designed in the training process to improve the output discrimination via
imposing competitive consistency from the inputs, reflecting the specific
characteristics in infrared and visible images. The experimental performance
demonstrates the effectiveness of the proposed modules, with superior
improvement against the state-of-the-art, generalising a novel paradigm via
transformer and adversarial learning in the fusion task.
- Abstract(参考訳): エンドツーエンドのイメージ融合フレームワークは、マルチモーダルなローカルな外観を集約した専用畳み込みネットワークによって、有望なパフォーマンスを達成している。
しかし、長距離依存は既存のCNN融合アプローチでは直接無視され、複雑なシナリオ融合に対するイメージレベルの認識全体のバランスを阻害する。
そこで本研究では,軽量トランスモジュールと対向学習に基づく赤外線・可視画像融合アルゴリズムを提案する。
グローバル・インタラクション・パワーに触発されて、トランスフォーマー技術を用いて効果的なグローバル・フュージョン関係を学習する。
特に,CNNが抽出した浅い特徴をトランスフォーマー融合モジュールで相互作用させ,空間範囲内およびチャネル間の融合関係を改良する。
さらに、赤外線と可視画像の特定の特徴を反映して、入力からの競合一貫性を付与することで出力識別を改善するために、学習過程において逆学習が設計される。
実験の結果,提案モジュールの有効性が示され,最新技術に対する優れた改善が得られ,融合タスクにおけるトランスフォーマーと逆学習による新しいパラダイムが一般化された。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Infrared and Visible Image Fusion via Interactive Compensatory Attention
Adversarial Learning [7.995162257955025]
本稿では, 融合バランスを改善するために, 生成的対角訓練に基づく新しいエンド・ツー・エンド・モードを提案する。
特にジェネレータでは、トリプルパスを持つマルチレベルエンコーダデコーダネットワークを構築し、赤外線および可視経路を採用し、さらなる強度と情報勾配を提供する。
さらに、二重判別器は、融合した結果とソース画像の類似した分布を特定するように設計されており、生成器はよりバランスの取れた結果を生成するように最適化されている。
論文 参考訳(メタデータ) (2022-03-29T08:28:14Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。