論文の概要: DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion
- arxiv url: http://arxiv.org/abs/2409.10080v2
- Date: Tue, 24 Dec 2024 15:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:24.103105
- Title: DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion
- Title(参考訳): DAE-Fuse:多モード画像融合のための適応型識別オートエンコーダ
- Authors: Yuchen Guo, Ruoxiang Xu, Rongcheng Li, Zhenghao Wu, Weifeng Su,
- Abstract要約: DAE-Fuseは,鮮明で自然な融合画像を生成する2相識別型自動エンコーダフレームワークである。
静止画像からビデオ領域への画像融合技術の拡張を開拓した。
DaE-Fuseは、複数のベンチマークで最先端のパフォーマンスを実現し、医用画像融合のようなタスクに優れた一般化性を持つ。
- 参考スコア(独自算出の注目度): 10.713089596405053
- License:
- Abstract: In extreme scenarios such as nighttime or low-visibility environments, achieving reliable perception is critical for applications like autonomous driving, robotics, and surveillance. Multi-modality image fusion, particularly integrating infrared imaging, offers a robust solution by combining complementary information from different modalities to enhance scene understanding and decision-making. However, current methods face significant limitations: GAN-based approaches often produce blurry images that lack fine-grained details, while AE-based methods may introduce bias toward specific modalities, leading to unnatural fusion results. To address these challenges, we propose DAE-Fuse, a novel two-phase discriminative autoencoder framework that generates sharp and natural fused images. Furthermore, We pioneer the extension of image fusion techniques from static images to the video domain while preserving temporal consistency across frames, thus advancing the perceptual capabilities required for autonomous navigation. Extensive experiments on public datasets demonstrate that DAE-Fuse achieves state-of-the-art performance on multiple benchmarks, with superior generalizability to tasks like medical image fusion.
- Abstract(参考訳): 夜間や低視認性環境のような極端なシナリオでは、自律運転やロボティクス、監視といったアプリケーションにとって、信頼性の高い認識を達成することが重要である。
マルチモダリティ画像融合(特に赤外線画像の統合)は、異なるモダリティからの相補的な情報を組み合わせてシーン理解と意思決定を強化することで、堅牢なソリューションを提供する。
しかし、現在の手法には重大な制限がある: GANベースのアプローチは、細かな詳細を欠いたぼやけた画像をしばしば生成するが、AEベースの手法は特定のモダリティに対する偏見を導入し、不自然な融合結果をもたらす。
これらの課題に対処するために、鋭く自然に融合した画像を生成する新しい2相識別型オートエンコーダフレームワークであるDAE-Fuseを提案する。
さらに,フレーム間の時間的一貫性を保ちながら,静止画像からビデオ領域への画像融合技術の拡張を開拓し,自律ナビゲーションに必要な知覚能力を向上させる。
公開データセットに関する大規模な実験は、DAE-Fuseが複数のベンチマークで最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Conditional Controllable Image Fusion [56.4120974322286]
条件付き制御可能核融合(CCF)フレームワーク。
CCFは、実際には個々の個人に対して特定の核融合の制約を課している。
様々なシナリオにまたがる一般融合タスクにおける有効性を検証する実験。
論文 参考訳(メタデータ) (2024-11-03T13:56:15Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone
Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。
我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。
我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文 参考訳(メタデータ) (2023-11-02T13:43:44Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。