論文の概要: Towards a Generalizable Fusion Architecture for Multimodal Object Detection
- arxiv url: http://arxiv.org/abs/2510.17078v1
- Date: Mon, 20 Oct 2025 01:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.277447
- Title: Towards a Generalizable Fusion Architecture for Multimodal Object Detection
- Title(参考訳): 多モード物体検出のための一般化可能な融合アーキテクチャの実現に向けて
- Authors: Jad Berjawi, Yoann Dupas, Christophe C'erin,
- Abstract要約: Filtered Multi-Modal Cross Attention Fusion (FMCAF) は、RGBと赤外線(IR)入力の融合を強化するために設計された事前処理アーキテクチャである。
FMCAFは、データセット固有のチューニングを必要とせずに、さまざまなマルチモーダル課題のパフォーマンスを改善することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal object detection improves robustness in chal- lenging conditions by leveraging complementary cues from multiple sensor modalities. We introduce Filtered Multi- Modal Cross Attention Fusion (FMCAF), a preprocess- ing architecture designed to enhance the fusion of RGB and infrared (IR) inputs. FMCAF combines a frequency- domain filtering block (Freq-Filter) to suppress redun- dant spectral features with a cross-attention-based fusion module (MCAF) to improve intermodal feature sharing. Unlike approaches tailored to specific datasets, FMCAF aims for generalizability, improving performance across different multimodal challenges without requiring dataset- specific tuning. On LLVIP (low-light pedestrian detec- tion) and VEDAI (aerial vehicle detection), FMCAF outper- forms traditional fusion (concatenation), achieving +13.9% mAP@50 on VEDAI and +1.1% on LLVIP. These results support the potential of FMCAF as a flexible foundation for robust multimodal fusion in future detection pipelines.
- Abstract(参考訳): マルチモーダル物体検出は, 複数センサモードからの相補的手がかりを活用することにより, チャルレンギング条件のロバスト性を向上させる。
我々は、RGBと赤外線(IR)入力の融合を強化するために設計された前処理アーキテクチャであるFMCAF(Filted Multi-Modal Cross Attention Fusion)を導入する。
FMCAFは周波数領域フィルタリングブロック(Freq-Filter)を結合して、周波数領域のスペクトル特性とMCAF(クロスアテンションベースの融合モジュール)を抑圧し、モード間特徴共有を改善する。
特定のデータセットに適したアプローチとは異なり、FMCAFは汎用性を目指しており、データセット固有のチューニングを必要とせずに、さまざまなマルチモーダル課題のパフォーマンスを改善している。
LLVIP(低照度歩行者デテックオン)とVEDAI(空中車両検出)では、FMCAFは伝統的な融合(結合)を形成し、VEDAIでは+13.9% mAP@50、LLVIPでは+1.1%を達成している。
これらの結果は、将来の検出パイプラインにおける堅牢なマルチモーダル核融合のためのフレキシブル基盤としてのFMCAFの可能性を支持する。
関連論文リスト
- IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection [23.256601188227865]
クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。
IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-11T01:22:35Z) - DEPFusion: Dual-Domain Enhancement and Priority-Guided Mamba Fusion for UAV Multispectral Object Detection [6.4402018224356015]
DEPFusionというフレームワークがUAVマルチスペクトル物体検出のために提案されている。
デュアルドメイン強化(DDE)と優先誘導マンバ核融合(PGMF)から構成される。
DroneVehicleとVEDAIデータセットの実験は、DEPFusionが最先端の手法で優れたパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-09-09T01:51:57Z) - Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion [15.666336202108862]
MMIF(Multimodal Image Fusion)は、個々のセンサーの限界を克服するために、様々な画像モダリティから補完的な情報を統合することを目的としている。
現在のMMIF法は、モダリティの誤り、高周波詳細破壊、タスク固有の制限といった課題に直面している。
適応型クロスドメイン・コフュージョン学習によるタスク一般化MMIFのための新しいフレームワークであるAdaSFFuseを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:31:14Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。