論文の概要: DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion
- arxiv url: http://arxiv.org/abs/2409.10080v1
- Date: Mon, 16 Sep 2024 08:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:09:48.785391
- Title: DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion
- Title(参考訳): DAE-Fuse:多モード画像融合のための適応型識別オートエンコーダ
- Authors: Yuchen Guo, Ruoxiang Xu, Rongcheng Li, Zhenghao Wu, Weifeng Su,
- Abstract要約: 二相識別型オートエンコーダフレームワークであるDAE-Fuseは、シャープで自然な融合画像を生成する。
公共の赤外線可視、医用画像融合、下流オブジェクト検出データセットの実験は、我々の方法の優位性と一般化性を示している。
- 参考スコア(独自算出の注目度): 10.713089596405053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality image fusion aims to integrate complementary data information from different imaging modalities into a single image. Existing methods often generate either blurry fused images that lose fine-grained semantic information or unnatural fused images that appear perceptually cropped from the inputs. In this work, we propose a novel two-phase discriminative autoencoder framework, termed DAE-Fuse, that generates sharp and natural fused images. In the adversarial feature extraction phase, we introduce two discriminative blocks into the encoder-decoder architecture, providing an additional adversarial loss to better guide feature extraction by reconstructing the source images. While the two discriminative blocks are adapted in the attention-guided cross-modality fusion phase to distinguish the structural differences between the fused output and the source inputs, injecting more naturalness into the results. Extensive experiments on public infrared-visible, medical image fusion, and downstream object detection datasets demonstrate our method's superiority and generalizability in both quantitative and qualitative evaluations.
- Abstract(参考訳): 多モード画像融合は、異なる画像モダリティからの相補的なデータ情報を単一の画像に統合することを目的としている。
既存の方法では、細粒度のセマンティック情報を失うぼやけた融合画像や、入力から知覚的にトリミングされる不自然な融合画像を生成することが多い。
本研究では, DAE-Fuse と呼ばれる, 鮮明で自然な融合画像を生成する二相識別型自動符号化フレームワークを提案する。
逆方向の特徴抽出フェーズでは,エンコーダ・デコーダアーキテクチャに2つの識別ブロックを導入する。
2つの識別ブロックは、注意誘導の相互モード融合フェーズに適応し、融合出力とソース入力の間の構造的差異を識別し、結果により自然さを注入する。
一般の赤外可視、医用画像融合、下流オブジェクト検出データセットに関する大規模な実験は、定量的および定性評価の両方において、我々の方法の優位性と一般化性を示す。
関連論文リスト
- Conditional Controllable Image Fusion [56.4120974322286]
条件付き制御可能核融合(CCF)フレームワーク。
CCFは、実際には個々の個人に対して特定の核融合の制約を課している。
様々なシナリオにまたがる一般融合タスクにおける有効性を検証する実験。
論文 参考訳(メタデータ) (2024-11-03T13:56:15Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone
Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。
我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。
我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文 参考訳(メタデータ) (2023-11-02T13:43:44Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。