論文の概要: Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision
- arxiv url: http://arxiv.org/abs/2509.11476v1
- Date: Sun, 14 Sep 2025 23:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.101081
- Title: Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision
- Title(参考訳): ターゲット・アウェア・スーパービジョンを用いたモダリティ・アウェア赤外・可視画像融合
- Authors: Tianyao Sun, Dawei Xiang, Tianqi Ding, Xiang Fang, Yijiashun Qi, Zunduo Zhao,
- Abstract要約: 本稿では,モダリティ間相互作用を明示的にモデル化し,タスククリティカル領域を拡張できる新しいエンドツーエンド融合フレームワークを提案する。
FusionNetは、赤外線と可視光の寄与を動的に調整するモダリティ対応のアテンションメカニズムを導入している。
公開M3FDデータセットの実験では、FusionNetは、セマンティック保存の強化、高い知覚品質、明確な解釈可能性を備えた融合画像を生成する。
- 参考スコア(独自算出の注目度): 8.898422193366354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion (IVIF) is a fundamental task in multi-modal perception that aims to integrate complementary structural and textural cues from different spectral domains. In this paper, we propose FusionNet, a novel end-to-end fusion framework that explicitly models inter-modality interaction and enhances task-critical regions. FusionNet introduces a modality-aware attention mechanism that dynamically adjusts the contribution of infrared and visible features based on their discriminative capacity. To achieve fine-grained, interpretable fusion, we further incorporate a pixel-wise alpha blending module, which learns spatially-varying fusion weights in an adaptive and content-aware manner. Moreover, we formulate a target-aware loss that leverages weak ROI supervision to preserve semantic consistency in regions containing important objects (e.g., pedestrians, vehicles). Experiments on the public M3FD dataset demonstrate that FusionNet generates fused images with enhanced semantic preservation, high perceptual quality, and clear interpretability. Our framework provides a general and extensible solution for semantic-aware multi-modal image fusion, with benefits for downstream tasks such as object detection and scene understanding.
- Abstract(参考訳): Infrared and visible image fusion (IVIF) は、異なるスペクトル領域からの相補的構造的およびテクスチャ的手がかりを統合することを目的としたマルチモーダル知覚の基本的な課題である。
本稿では,モダリティ間相互作用を明示的にモデル化し,タスククリティカルな領域を強化した,新しいエンドツーエンド融合フレームワークFusionNetを提案する。
FusionNetは、その識別能力に基づいて、赤外線と可視的特徴の寄与を動的に調整する、モダリティ対応の注意機構を導入している。
微粒で解釈可能な核融合を実現するため、我々はさらに、適応的かつ内容的に空間的に変化する核融合重みを学習する画素ワイドアルファブレンディングモジュールを組み込んだ。
さらに,重要な対象(歩行者,車両など)を含む領域のセマンティック一貫性を維持するために,弱いROI管理を活用する目標認識損失を定式化する。
公開M3FDデータセットの実験では、FusionNetは、セマンティック保存の強化、高い知覚品質、明確な解釈可能性を備えた融合画像を生成する。
我々のフレームワークは,意味認識型マルチモーダル画像融合のための汎用的で拡張可能なソリューションを提供し,オブジェクト検出やシーン理解といった下流タスクの利点を提供する。
関連論文リスト
- Deep Unfolding Multi-modal Image Fusion Network via Attribution Analysis [16.6226059346127]
セマンティックセグメンテーションのために、より効率的に融合画像を調整するための「Unfolding Analysis Fusion Network」 (UAAFusion) を提案する。
帰属分析技術を用いて,課題識別のためのソース画像中の意味領域の寄与を探索する。
提案手法は,帰属分析から導かれる最適化目的を用いたモデル駆動型展開ネットワークを構築する。
論文 参考訳(メタデータ) (2025-02-03T16:00:21Z) - DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion [21.64382683858586]
赤外線と可視画像の融合は、両モードの相補的な情報を組み合わせて、より包括的なシーン理解を提供することを目的としている。
最大領域適応型デュアルブランチ機能分解融合ネットワーク(DAF-Net)を提案する。
MK-MMDを導入することで、DAF-Netは可視画像と赤外線画像の潜在特徴空間を効果的に整列し、融合画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-09-18T02:14:08Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。