論文の概要: DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion
- arxiv url: http://arxiv.org/abs/2409.10080v2
- Date: Tue, 24 Dec 2024 15:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:24.103105
- Title: DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion
- Title(参考訳): DAE-Fuse:多モード画像融合のための適応型識別オートエンコーダ
- Authors: Yuchen Guo, Ruoxiang Xu, Rongcheng Li, Zhenghao Wu, Weifeng Su,
- Abstract要約: DAE-Fuseは,鮮明で自然な融合画像を生成する2相識別型自動エンコーダフレームワークである。
静止画像からビデオ領域への画像融合技術の拡張を開拓した。
DaE-Fuseは、複数のベンチマークで最先端のパフォーマンスを実現し、医用画像融合のようなタスクに優れた一般化性を持つ。
- 参考スコア(独自算出の注目度): 10.713089596405053
- License:
- Abstract: In extreme scenarios such as nighttime or low-visibility environments, achieving reliable perception is critical for applications like autonomous driving, robotics, and surveillance. Multi-modality image fusion, particularly integrating infrared imaging, offers a robust solution by combining complementary information from different modalities to enhance scene understanding and decision-making. However, current methods face significant limitations: GAN-based approaches often produce blurry images that lack fine-grained details, while AE-based methods may introduce bias toward specific modalities, leading to unnatural fusion results. To address these challenges, we propose DAE-Fuse, a novel two-phase discriminative autoencoder framework that generates sharp and natural fused images. Furthermore, We pioneer the extension of image fusion techniques from static images to the video domain while preserving temporal consistency across frames, thus advancing the perceptual capabilities required for autonomous navigation. Extensive experiments on public datasets demonstrate that DAE-Fuse achieves state-of-the-art performance on multiple benchmarks, with superior generalizability to tasks like medical image fusion.
- Abstract(参考訳): 夜間や低視認性環境のような極端なシナリオでは、自律運転やロボティクス、監視といったアプリケーションにとって、信頼性の高い認識を達成することが重要である。
マルチモダリティ画像融合(特に赤外線画像の統合)は、異なるモダリティからの相補的な情報を組み合わせてシーン理解と意思決定を強化することで、堅牢なソリューションを提供する。
しかし、現在の手法には重大な制限がある: GANベースのアプローチは、細かな詳細を欠いたぼやけた画像をしばしば生成するが、AEベースの手法は特定のモダリティに対する偏見を導入し、不自然な融合結果をもたらす。
これらの課題に対処するために、鋭く自然に融合した画像を生成する新しい2相識別型オートエンコーダフレームワークであるDAE-Fuseを提案する。
さらに,フレーム間の時間的一貫性を保ちながら,静止画像からビデオ領域への画像融合技術の拡張を開拓し,自律ナビゲーションに必要な知覚能力を向上させる。
公開データセットに関する大規模な実験は、DAE-Fuseが複数のベンチマークで最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion [46.545365049713105]
赤外線および可視画像融合は、ソース画像の強度と詳細情報を含む融合画像を生成することを目的としている。
既存の手法は主に損失関数の単純な重みを採用し、各モードの情報保持を決定する。
近赤外・可視画像融合のためのマルチスケールデュアルアテンション(MDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T14:40:05Z) - Multi-modal Medical Neurological Image Fusion using Wavelet Pooled Edge
Preserving Autoencoder [3.3828292731430545]
本稿では,エッジ保存型高密度オートエンコーダネットワークに基づくマルチモーダル医用画像に対するエンドツーエンド非教師付き核融合モデルを提案する。
提案モデルでは,特徴マップのウェーブレット分解に基づくアテンションプールを用いて特徴抽出を改善する。
提案モデルでは,ソース画像の強度分布の把握を支援する様々な医用画像ペアを訓練する。
論文 参考訳(メタデータ) (2023-10-18T11:59:35Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。