論文の概要: IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection
- arxiv url: http://arxiv.org/abs/2509.09085v2
- Date: Mon, 15 Sep 2025 04:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.978769
- Title: IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection
- Title(参考訳): IRDフュージョン:マルチスペクトル物体検出のための反復関係マップ差分誘導特徴フュージョン
- Authors: Jifeng Shen, Haibo Zhan, Xin Zuo, Heng Fan, Xiaohui Yuan, Jun Li, Wankou Yang,
- Abstract要約: クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。
IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
- 参考スコア(独自算出の注目度): 23.256601188227865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multispectral object detection methods often retain extraneous background or noise during feature fusion, limiting perceptual performance. To address this, we propose an innovative feature fusion framework based on cross-modal feature contrastive and screening strategy, diverging from conventional approaches. The proposed method adaptively enhances salient structures by fusing object-aware complementary cross-modal features while suppressing shared background interference. Our solution centers on two novel, specially designed modules: the Mutual Feature Refinement Module (MFRM) and the Differential Feature Feedback Module (DFFM). The MFRM enhances intra- and inter-modal feature representations by modeling their relationships, thereby improving cross-modal alignment and discriminative power. Inspired by feedback differential amplifiers, the DFFM dynamically computes inter-modal differential features as guidance signals and feeds them back to the MFRM, enabling adaptive fusion of complementary information while suppressing common-mode noise across modalities. To enable robust feature learning, the MFRM and DFFM are integrated into a unified framework, which is formally formulated as an Iterative Relation-Map Differential Guided Feature Fusion mechanism, termed IRDFusion. IRDFusion enables high-quality cross-modal fusion by progressively amplifying salient relational signals through iterative feedback, while suppressing feature noise, leading to significant performance gains. In extensive experiments on FLIR, LLVIP and M$^3$FD datasets, IRDFusion achieves state-of-the-art performance and consistently outperforms existing methods across diverse challenging scenarios, demonstrating its robustness and effectiveness. Code will be available at https://github.com/61s61min/IRDFusion.git.
- Abstract(参考訳): 現在のマルチスペクトルオブジェクト検出法は、しばしば特徴融合時に外在的背景やノイズを保持し、知覚性能を制限している。
そこで本研究では,従来の手法から切り離された,クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,共有背景干渉を抑えつつ,オブジェクト認識の相補的相互モーダル特徴を融合することにより,有能な構造を適応的に強化する。
我々のソリューションは、MFRM(Mutual Feature Refinement Module)とDFFM(Fariial Feature Feedback Module)という、2つの新しい特別設計モジュールに焦点を当てている。
MFRMは、それらの関係をモデル化することにより、モーダル内およびモーダル間の特徴表現を強化し、モーダル間アライメントと識別力を向上させる。
フィードバック微分増幅器にインスパイアされたDFFMは、モーダル間差分特徴を誘導信号として動的に計算し、それらをMFRMにフィードバックし、モーダル間の共通モードノイズを抑制しながら補完情報の適応的な融合を可能にする。
堅牢な特徴学習を実現するため、MFRMとDFFMは統合されたフレームワークに統合され、IRDFusionと呼ばれるIterative Relation-Map Differential Feature Fusionメカニズムとして形式化された。
IRDFusionは、反復的なフィードバックを通じて顕著なリレーショナル信号を漸進的に増幅し、特徴雑音を抑え、高性能なクロスモーダル融合を可能にする。
FLIR、LLVIP、M$^3$FDデータセットに関する広範な実験において、IRDFusionは最先端のパフォーマンスを達成し、さまざまな挑戦的なシナリオで既存のメソッドを一貫して上回り、その堅牢性と有効性を実証している。
コードはhttps://github.com/61s61min/IRDFusion.gitで入手できる。
関連論文リスト
- Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。
本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:48:00Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - WIFE-Fusion:Wavelet-aware Intra-inter Frequency Enhancement for Multi-model Image Fusion [8.098063209250684]
マルチモーダル画像融合は、多様なモーダルからの情報を効果的に集約する。
既存の手法はしばしば周波数領域の特徴探索と相互関係を無視している。
本稿では,周波数領域間の相互作用に基づくマルチモーダル画像融合フレームワークWIFE-Fusionを提案する。
論文 参考訳(メタデータ) (2025-06-04T04:18:32Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。