論文の概要: Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2604.08924v1
- Date: Fri, 10 Apr 2026 03:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.670924
- Title: Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion
- Title(参考訳): カスタムフュージョン: 適応型マルチタスク対応赤外線可視画像フュージョンのためのクローズドループ動的ネットワーク
- Authors: Zengyi Yang, Yu Liu, Juan Cheng, Zhiqin Zhu, Yafei Zhang, Huafeng Li,
- Abstract要約: 近赤外可視画像融合は、視覚の堅牢な理解のために相補的な情報を統合することを目的としている。
既存の融合手法は、複数の下流タスクに同時に適応するのに苦労する。
本稿では,多様な下流タスクのセマンティックな要求に適応的に応答できるClosed-Loop Dynamic Network (CLDyN)を提案する。
- 参考スコア(独自算出の注目度): 26.90259263743771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible image fusion aims to integrate complementary information for robust visual understanding, but existing fusion methods struggle with simultaneously adapting to multiple downstream tasks. To address this issue, we propose a Closed-Loop Dynamic Network (CLDyN) that can adaptively respond to the semantic requirements of diverse downstream tasks for task-customized image fusion. Specifically, CLDyN introduces a closed-loop optimization mechanism that establishes a semantic transmission chain to achieve explicit feedback from downstream tasks to the fusion network through a Requirement-driven Semantic Compensation (RSC) module. The RSC module leverages a Basis Vector Bank (BVB) and an Architecture-Adaptive Semantic Injection (A2SI) block to customize the network architecture according to task requirements, thereby enabling task-specific semantic compensation and allowing the fusion network to actively adapt to diverse tasks without retraining. To promote semantic compensation, a reward-penalty strategy is introduced to reward or penalize the RSC module based on task performance variations. Experiments on the M3FD, FMB, and VT5000 datasets demonstrate that CLDyN not only maintains high fusion quality but also exhibits strong multi-task adaptability. The code is available at https://github.com/YR0211/CLDyN.
- Abstract(参考訳): Infrared-visible Image fusionは、視覚的堅牢な理解のために補完的な情報を統合することを目的としているが、既存の融合手法は複数の下流タスクに同時に適応するのに苦労している。
この問題に対処するために,タスクカストマイズされた画像融合のための様々な下流タスクのセマンティック要件に適応的に対応できるClosed-Loop Dynamic Network (CLDyN)を提案する。
具体的には、CLDyNは、要求駆動セマンティック補償(RSC)モジュールを介して下流タスクから融合ネットワークへの明示的なフィードバックを達成するために、セマンティックトランスミッションチェーンを確立するクローズドループ最適化機構を導入している。
RSCモジュールは、Basis Vector Bank(BVB)とArchitecture-Adaptive Semantic Injection(A2SI)ブロックを利用して、タスク要求に応じてネットワークアーキテクチャをカスタマイズし、タスク固有のセマンティックな補償を可能にし、フュージョンネットワークが再トレーニングすることなく多様なタスクに積極的に適応できるようにする。
セマンティック報酬を促進するために、タスクパフォーマンスのバリエーションに基づいてRCCモジュールを報酬またはペナルティ化する報奨金戦略を導入する。
M3FD、FMB、VT5000データセットの実験では、CLDyNは高い融合品質を維持するだけでなく、強力なマルチタスク適応性も示している。
コードはhttps://github.com/YR0211/CLDyNで入手できる。
関連論文リスト
- Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T13:23:58Z) - CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。
我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。
実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文 参考訳(メタデータ) (2026-01-12T13:36:48Z) - Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion [82.74585945197231]
統合画像融合は、マルチソース画像からの補完情報を統合し、画質を向上させることを目的としている。
既存の一般画像融合法では、異なる融合タスクへの適応を可能にする明示的なタスク識別が組み込まれている。
本稿では,タスク不変相互作用とタスク固有適応のバランスをとる,新たな統合画像融合フレームワーク「TITA」を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:08:35Z) - Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks [9.415977819944246]
赤外線と可視光融合技術の主な価値は、下流のタスクに融合結果を適用することである。
既存の手法では、トレーニングの複雑さが増し、個々のタスクのパフォーマンスが著しく損なわれるといった課題に直面している。
本稿では,タスク指向適応制御(T-OAR)を提案する。
論文 参考訳(メタデータ) (2024-11-14T12:02:01Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。