論文の概要: Task-driven Image Fusion with Learnable Fusion Loss
- arxiv url: http://arxiv.org/abs/2412.03240v2
- Date: Mon, 24 Mar 2025 11:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:15.438863
- Title: Task-driven Image Fusion with Learnable Fusion Loss
- Title(参考訳): 学習可能な核融合損失を用いたタスク駆動型画像融合
- Authors: Haowen Bai, Jiangshe Zhang, Zixiang Zhao, Yichen Wu, Lilun Deng, Yukun Cui, Tao Feng, Shuang Xu,
- Abstract要約: Task-driven Image Fusion (TDFusion)は、タスクロスによってガイドされる学習可能なフュージョンロスを組み込んだフュージョンフレームワークである。
実験では、4つの異なるデータセットで実施された核融合実験を通じてTDFusionの性能を示す。
- 参考スコア(独自算出の注目度): 18.840276588000155
- License:
- Abstract: Multi-modal image fusion aggregates information from multiple sensor sources, achieving superior visual quality and perceptual features compared to single-source images, often improving downstream tasks. However, current fusion methods for downstream tasks still use predefined fusion objectives that potentially mismatch the downstream tasks, limiting adaptive guidance and reducing model flexibility. To address this, we propose Task-driven Image Fusion (TDFusion), a fusion framework incorporating a learnable fusion loss guided by task loss. Specifically, our fusion loss includes learnable parameters modeled by a neural network called the loss generation module. This module is supervised by the downstream task loss in a meta-learning manner. The learning objective is to minimize the task loss of fused images after optimizing the fusion module with the fusion loss. Iterative updates between the fusion module and the loss module ensure that the fusion network evolves toward minimizing task loss, guiding the fusion process toward the task objectives. TDFusion's training relies entirely on the downstream task loss, making it adaptable to any specific task. It can be applied to any architecture of fusion and task networks. Experiments demonstrate TDFusion's performance through fusion experiments conducted on four different datasets, in addition to evaluations on semantic segmentation and object detection tasks.
- Abstract(参考訳): マルチモーダル画像融合は、複数のセンサソースからの情報を集約し、単一のソースイメージよりも優れた視覚的品質と知覚的特徴を達成し、ダウンストリームタスクを改善することが多い。
しかし、下流タスクの現在の融合方法は、まだ定義済みの融合目標を使用しており、下流タスクをミスマッチさせ、適応的なガイダンスを制限し、モデルの柔軟性を低下させます。
そこで本研究では,タスク駆動型画像融合(TDFusion, Task-driven Image Fusion, TDFusion)を提案する。
具体的には、融合損失には、損失生成モジュールと呼ばれるニューラルネットワークによってモデル化された学習可能なパラメータが含まれる。
このモジュールは、メタ学習方式で下流のタスク損失によって管理される。
学習の目的は、融合モジュールを融合損失で最適化した後、融合画像のタスクロスを最小限にすることである。
融合モジュールと損失モジュールの反復的な更新により、融合ネットワークはタスク損失を最小限に抑え、タスク目標に向かって融合プロセスを導くように進化する。
TDFusionのトレーニングは、ダウンストリームのタスク損失に完全に依存しているため、特定のタスクに適応できる。
核融合やタスクネットワークのあらゆるアーキテクチャに適用できる。
実験では, 4つの異なるデータセットで実施した融合実験と, セマンティックセグメンテーションおよびオブジェクト検出タスクの評価により, TDFusionの性能を実証した。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning [17.173784980297214]
ReFusionはメタ学習ベースのイメージ融合フレームワークである。
ソース画像再構成により、様々なタスクの融合損失を動的に最適化する。
赤外線可視、医療、マルチフォーカス、マルチ露光画像融合など、様々なタスクに適応することができる。
論文 参考訳(メタデータ) (2023-12-13T07:40:39Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - RFN-Nest: An end-to-end residual fusion network for infrared and visible
images [37.935940961760785]
赤外線および可視画像融合のためのエンドツーエンド融合ネットワークアーキテクチャ(RFN-Nest)を提案する。
RFNを訓練するために、新しい詳細保存損失関数と機能強化損失関数が提案される。
パブリックドメインデータセットの実験結果から,既存手法と比較して,我々のエンドツーエンドのフュージョンネットワークは最先端の手法よりも優れた性能を提供することが示された。
論文 参考訳(メタデータ) (2021-03-07T07:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。