論文の概要: UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation
- arxiv url: http://arxiv.org/abs/2603.14214v1
- Date: Sun, 15 Mar 2026 04:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.6743
- Title: UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation
- Title(参考訳): UniFusion:ロバスト表現とソース認識保存を備えた統合イメージ融合フレームワーク
- Authors: Xingyuan Li, Songcheng Du, Yang Zou, HaoYuan Xu, Zhiying Jiang, Jinyuan Liu,
- Abstract要約: We propose UniFusion, a unified image fusion framework to achieve cross-task generalization。
融合出力と入力の整合性を維持するために再構成調整損失を導入する。
複数の融合タスクにわたる実験は、UniFusionの優れた視覚的品質、一般化能力、現実のシナリオへの適応性を示す。
- 参考スコア(独自算出の注目度): 18.352691348247294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion aims to integrate complementary information from multiple source images to produce a more informative and visually consistent representation, benefiting both human perception and downstream vision tasks. Despite recent progress, most existing fusion methods are designed for specific tasks (i.e., multi-modal, multi-exposure, or multi-focus fusion) and struggle to effectively preserve source information during the fusion process. This limitation primarily arises from task-specific architectures and the degradation of source information caused by deep-layer propagation. To overcome these issues, we propose UniFusion, a unified image fusion framework designed to achieve cross-task generalization. First, leveraging DINOv3 for modality-consistent feature extraction, UniFusion establishes a shared semantic space for diverse inputs. Second, to preserve the understanding of each source image, we introduce a reconstruction-alignment loss to maintain consistency between fused outputs and inputs. Finally, we employ a bilevel optimization strategy to decouple and jointly optimize reconstruction and fusion objectives, effectively balancing their coupling relationship and ensuring smooth convergence. Extensive experiments across multiple fusion tasks demonstrate UniFusion's superior visual quality, generalization ability, and adaptability to real-world scenarios. Code is available at https://github.com/dusongcheng/UniFusion.
- Abstract(参考訳): Image fusionは、複数のソースイメージからの補完的な情報を統合して、より情報的かつ視覚的に一貫性のある表現を生成し、人間の知覚と下流の視覚タスクの両方に役立てることを目的としている。
近年の進歩にもかかわらず、ほとんどの既存の融合法は特定のタスク(マルチモーダル、マルチエクスポージャー、マルチフォーカスフュージョン)のために設計されており、融合プロセス中にソース情報を効果的に保存するのに苦労している。
この制限は、主にタスク固有のアーキテクチャと、ディープレイヤの伝搬によって引き起こされるソース情報の劣化から生じる。
これらの課題を克服するために,マルチタスクの一般化を実現するための統合画像融合フレームワークUniFusionを提案する。
まず、DINOv3をモダリティ一貫性のある特徴抽出に利用し、UniFusionは多様な入力のための共有意味空間を確立する。
第2に、各ソースイメージの理解を維持するために、融合出力と入力の整合性を維持するために再構成調整損失を導入する。
最後に, 2段階の最適化手法を用いて, 再構成と融合の目的を分離し, 協調的に最適化し, 結合関係を効果的にバランスさせ, 円滑な収束を確保する。
複数の融合タスクにわたる大規模な実験は、UniFusionの優れた視覚的品質、一般化能力、現実のシナリオへの適応性を示している。
コードはhttps://github.com/dusongcheng/UniFusion.comで入手できる。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-12-21T09:25:10Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。