論文の概要: Multispectral State-Space Feature Fusion: Bridging Shared and Cross-Parametric Interactions for Object Detection
- arxiv url: http://arxiv.org/abs/2507.14643v1
- Date: Sat, 19 Jul 2025 14:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.984253
- Title: Multispectral State-Space Feature Fusion: Bridging Shared and Cross-Parametric Interactions for Object Detection
- Title(参考訳): マルチスペクトル状態空間特徴フュージョン:オブジェクト検出のための共有およびパラメトリック相互作用のブリッジング
- Authors: Jifeng Shen, Haibo Zhan, Shaohua Dong, Xin Zuo, Wankou Yang, Haibin Ling,
- Abstract要約: MS2Fusionと呼ばれる新しいマルチスペクトル状態空間特徴融合フレームワークが提案されている。
MS2フュージョンはデュアルパスパラメトリック相互作用機構を通じて効率的かつ効果的な融合を実現する。
我々のMS2Fusionは、主要なベンチマーク実験において、他の最先端のマルチスペクトルオブジェクト検出方法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 52.89879175806563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern multispectral feature fusion for object detection faces two critical limitations: (1) Excessive preference for local complementary features over cross-modal shared semantics adversely affects generalization performance; and (2) The trade-off between the receptive field size and computational complexity present critical bottlenecks for scalable feature modeling. Addressing these issues, a novel Multispectral State-Space Feature Fusion framework, dubbed MS2Fusion, is proposed based on the state space model (SSM), achieving efficient and effective fusion through a dual-path parametric interaction mechanism. More specifically, the first cross-parameter interaction branch inherits the advantage of cross-attention in mining complementary information with cross-modal hidden state decoding in SSM. The second shared-parameter branch explores cross-modal alignment with joint embedding to obtain cross-modal similar semantic features and structures through parameter sharing in SSM. Finally, these two paths are jointly optimized with SSM for fusing multispectral features in a unified framework, allowing our MS2Fusion to enjoy both functional complementarity and shared semantic space. In our extensive experiments on mainstream benchmarks including FLIR, M3FD and LLVIP, our MS2Fusion significantly outperforms other state-of-the-art multispectral object detection methods, evidencing its superiority. Moreover, MS2Fusion is general and applicable to other multispectral perception tasks. We show that, even without specific design, MS2Fusion achieves state-of-the-art results on RGB-T semantic segmentation and RGBT salient object detection, showing its generality. The source code will be available at https://github.com/61s61min/MS2Fusion.git.
- Abstract(参考訳): オブジェクト検出のための現代のマルチスペクトル特徴融合は、(1) クロスモーダルな共有セマンティクスよりも局所的な相補的特徴の過剰な優先が一般化性能に悪影響を及ぼす、(2) 受容野の大きさと計算複雑性のトレードオフは、スケーラブルな特徴モデリングにおいて重要なボトルネックとなる、という2つの限界に直面している。
これらの問題に対処するため、MS2Fusionと呼ばれる新しい多スペクトル状態空間特徴融合フレームワークが、状態空間モデル(SSM)に基づいて提案され、デュアルパスパラメトリック相互作用機構による効率的かつ効果的な融合を実現する。
より具体的には、第1のパラメータ間相互作用ブランチは、SSMにおけるクロスモーダルな隠れ状態復号による補完情報のマイニングにおいて、クロスアテンションの利点を継承する。
第2の共有パラメータブランチは、SSMにおけるパラメータ共有を通じて、クロスモーダル類似のセマンティック特徴と構造を得るために、ジョイント埋め込みとのクロスモーダルアライメントを探索する。
最後に、これらの2つのパスは統合されたフレームワークでマルチスペクトル特徴を融合するためにSSMと共同で最適化され、MS2Fusionは機能的な相補性と共有セマンティック空間の両方を楽しむことができる。
FLIR, M3FD, LLVIPなどの主要なベンチマークに関する広範な実験では、MS2Fusionは他の最先端のマルチスペクトルオブジェクト検出方法よりも優れており、その優位性を示している。
さらに、MS2Fusionは他のマルチスペクトル認識タスクにも適用可能である。
具体的な設計がなくても,MS2FusionはRGB-TセマンティックセマンティックセグメンテーションとRGBTサリアンオブジェクト検出の最先端結果を達成し,その汎用性を示す。
ソースコードはhttps://github.com/61s61min/MS2Fusion.gitで入手できる。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。