論文の概要: HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation
- arxiv url: http://arxiv.org/abs/2407.10047v1
- Date: Sun, 14 Jul 2024 02:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:48:19.178053
- Title: HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation
- Title(参考訳): HSFusion:意味的および幾何学的領域変換による高レベル視覚タスク駆動赤外線および可視画像融合ネットワーク
- Authors: Chengjie Jiang, Xiaowen Liu, Bowen Zheng, Lu Bai, Jing Li,
- Abstract要約: 意味的および幾何学的領域変換を用いた高レベルの視覚タスク駆動赤外線・可視画像融合ネットワークを提案する。
CycleGANはドメイン変換パターンを学習し、これらのパターンの制約の下でCycleGANの再構成プロセスを実行する。
融合段階において,2つのセフェレートサイクロンの再構成過程から抽出した赤外・可視的特徴を統合し,融合結果を得た。
- 参考スコア(独自算出の注目度): 7.0753924732154365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion has been developed from vision perception oriented fusion methods to strategies which both consider the vision perception and high-level vision task. However, the existing task-driven methods fail to address the domain gap between semantic and geometric representation. To overcome these issues, we propose a high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation, terms as HSFusion. Specifically, to minimize the gap between semantic and geometric representation, we design two separate domain transformation branches by CycleGAN framework, and each includes two processes: the forward segmentation process and the reverse reconstruction process. CycleGAN is capable of learning domain transformation patterns, and the reconstruction process of CycleGAN is conducted under the constraint of these patterns. Thus, our method can significantly facilitate the integration of semantic and geometric information and further reduces the domain gap. In fusion stage, we integrate the infrared and visible features that extracted from the reconstruction process of two seperate CycleGANs to obtain the fused result. These features, containing varying proportions of semantic and geometric information, can significantly enhance the high level vision tasks. Additionally, we generate masks based on segmentation results to guide the fusion task. These masks can provide semantic priors, and we design adaptive weights for two distinct areas in the masks to facilitate image fusion. Finally, we conducted comparative experiments between our method and eleven other state-of-the-art methods, demonstrating that our approach surpasses others in both visual appeal and semantic segmentation task.
- Abstract(参考訳): 赤外および可視画像融合は、視知覚指向の融合法から、視知覚と高レベル視覚タスクの両方を考慮した戦略へと発展してきた。
しかし、既存のタスク駆動手法は意味論と幾何学的表現の間の領域ギャップに対処できない。
これらの課題を克服するために,HSFusion という用語を用いた意味的および幾何学的領域変換による高レベルの視覚タスク駆動赤外線・可視画像融合ネットワークを提案する。
具体的には、意味的表現と幾何学的表現のギャップを最小限に抑えるために、CycleGANフレームワークによって2つの別々のドメイン変換分岐を設計し、それぞれが前方分割プロセスと逆再構成プロセスの2つのプロセスを含む。
CycleGANはドメイン変換パターンを学習し、これらのパターンの制約の下でCycleGANの再構成プロセスを実行する。
したがって,本手法は意味情報や幾何学的情報の統合を著しく促進し,領域のギャップを小さくすることができる。
融合段階において,2つのセフェレートサイクロンの再構成過程から抽出した赤外・可視的特徴を統合し,融合結果を得た。
これらの特徴は、意味的および幾何学的な情報の多様さを含むもので、ハイレベルな視覚タスクを著しく強化することができる。
さらに、分割結果に基づいてマスクを生成し、融合タスクを誘導する。
これらのマスクはセマンティックな事前情報を提供することができ、マスク内の2つの異なる領域に対して適応的な重みを設計し、画像の融合を促進する。
最後に,本手法と11種類の最先端手法の比較実験を行い,視覚的魅力と意味的セグメンテーションの両課題において,我々のアプローチが他よりも優れていることを示した。
関連論文リスト
- Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。