論文の概要: MAUGIF: Mechanism-Aware Unsupervised General Image Fusion via Dual Cross-Image Autoencoders
- arxiv url: http://arxiv.org/abs/2511.08272v3
- Date: Fri, 14 Nov 2025 01:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.626275
- Title: MAUGIF: Mechanism-Aware Unsupervised General Image Fusion via Dual Cross-Image Autoencoders
- Title(参考訳): MAUGIF:デュアル・クロス・イメージ・オートエンコーダによるメカニズムを意識した一般画像融合
- Authors: Kunjing Yang, Zhiwei Wang, Minru Bai,
- Abstract要約: 本稿では,2つのクロスイメージオートエンコーダをベースとしたMAUGIF(Multior-Aware Unsupervised General Image fusion)法を提案する。
本稿では, 異なる核融合タスクのメカニズムに応じて, 加法的および乗法的融合の分類を導入する。
デコーダのアーキテクチャは、その融合機構によって異なり、性能と解釈性の両方が向上する。
- 参考スコア(独自算出の注目度): 5.5579215593170685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion aims to integrate structural and complementary information from multi-source images. However, existing fusion methods are often either highly task-specific, or general frameworks that apply uniform strategies across diverse tasks, ignoring their distinct fusion mechanisms. To address this issue, we propose a mechanism-aware unsupervised general image fusion (MAUGIF) method based on dual cross-image autoencoders. Initially, we introduce a classification of additive and multiplicative fusion according to the inherent mechanisms of different fusion tasks. Then, dual encoders map source images into a shared latent space, capturing common content while isolating modality-specific details. During the decoding phase, dual decoders act as feature injectors, selectively reintegrating the unique characteristics of each modality into the shared content for reconstruction. The modality-specific features are injected into the source image in the fusion process, generating the fused image that integrates information from both modalities. The architecture of decoders varies according to their fusion mechanisms, enhancing both performance and interpretability. Extensive experiments are conducted on diverse fusion tasks to validate the effectiveness and generalization ability of our method. The code is available at https://anonymous.4open.science/r/MAUGIF.
- Abstract(参考訳): 画像融合は、マルチソース画像からの構造化情報と補完情報を統合することを目的としている。
しかし、既存の融合手法は、しばしば非常にタスク固有のものであるか、あるいは様々なタスクに一様戦略を適用する一般的なフレームワークであり、それらの異なる融合機構を無視している。
この問題に対処するために,2つのクロスイメージオートエンコーダをベースとした機構対応のunsupervised general image fusion (MAUGIF)法を提案する。
まず、異なる融合タスクの固有のメカニズムに応じて、加法的および乗法的融合の分類を導入する。
次に、デュアルエンコーダは、ソース画像を共有潜在空間にマッピングし、モダリティ固有の詳細を分離しながら、共通のコンテンツをキャプチャする。
復号フェーズでは、デュアルデコーダが特徴インジェクタとして機能し、各モダリティのユニークな特性を共有コンテンツに選択的に統合して再構成を行う。
融合過程において、モダリティ固有の特徴をソース画像に注入し、両方のモダリティから情報を統合する融合画像を生成する。
デコーダのアーキテクチャは、その融合機構によって異なり、性能と解釈性の両方を向上させる。
本手法の有効性と一般化能力を検証するため,多種多様な核融合実験を行った。
コードはhttps://anonymous.4open.science/r/MAUGIFで公開されている。
関連論文リスト
- MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation [43.62940654606311]
画像融合とセマンティックセグメンテーションのための統合ネットワークを提案する。
画像融合のセマンティック・アウェア機能を高めるための異種機能融合戦略を考案する。
フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
論文 参考訳(メタデータ) (2025-09-15T11:55:55Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local
Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。
分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文 参考訳(メタデータ) (2022-10-18T13:30:52Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。