論文の概要: MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters
- arxiv url: http://arxiv.org/abs/2512.00363v1
- Date: Sat, 29 Nov 2025 07:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.19503
- Title: MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters
- Title(参考訳): MM-DETR:マンバ駆動デュアルグラニュラリティフュージョンと周波数対応モード適応器を用いた効率的なマルチモーダル検出変換器
- Authors: Jianhong Han, Yupei Wang, Yuan Zhang, Liang Chen,
- Abstract要約: マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
- 参考スコア(独自算出の注目度): 12.063966356953186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal remote sensing object detection aims to achieve more accurate and robust perception under challenging conditions by fusing complementary information from different modalities. However, existing approaches that rely on attention-based or deformable convolution fusion blocks still struggle to balance performance and lightweight design. Beyond fusion complexity, extracting modality features with shared backbones yields suboptimal representations due to insufficient modality-specific modeling, whereas dual-stream architectures nearly double the parameter count, ultimately limiting practical deployment. To this end, we propose MM-DETR, a lightweight and efficient framework for multimodal object detection. Specifically, we propose a Mamba-based dual granularity fusion encoder that reformulates global interaction as channel-wise dynamic gating and leverages a 1D selective scan for efficient cross-modal modeling with linear complexity. Following this design, we further reinterpret multimodal fusion as a modality completion problem. A region-aware 2D selective scanning completion branch is introduced to recover modality-specific cues, supporting fine-grained fusion along a bidirectional pyramid pathway with minimal overhead. To further reduce parameter redundancy while retaining strong feature extraction capability, a lightweight frequency-aware modality adapter is inserted into the shared backbone. This adapter employs a spatial-frequency co-expert structure to capture modality-specific cues, while a pixel-wise router dynamically balances expert contributions for efficient spatial-frequency fusion. Extensive experiments conducted on four multimodal benchmark datasets demonstrate the effectiveness and generalization capability of the proposed method.
- Abstract(参考訳): マルチモーダルリモートセンシングオブジェクト検出は、異なるモーダルから相補的情報を融合することにより、困難な条件下でより正確で堅牢な知覚を実現することを目的としている。
しかし、注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、パフォーマンスと軽量設計のバランスをとるのに依然として苦労している。
融合複雑性の他に、共有バックボーンによるモダリティ特徴の抽出は、モダリティ固有のモデリングが不十分なため、最適でない表現をもたらすが、一方、デュアルストリームアーキテクチャはパラメータカウントをほぼ2倍にし、最終的に実際の配置を制限する。
そこで本稿では,マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
具体的には,大域的相互作用をチャネルワイド・ダイナミック・ゲーティングとして再構成するMamba-based dual Granity fusion encoderを提案する。
この設計の後、我々はマルチモーダル融合をモダリティ完備問題として再解釈する。
領域対応2D選択的走査完了枝を導入し、モダリティ特異的なキューを復元し、最小限のオーバーヘッドで双方向のピラミッド経路に沿って微細な融合をサポートする。
強力な特徴抽出能力を維持しつつパラメータ冗長性をさらに低減するため、共有バックボーンに軽量周波数対応のモダリティアダプタを挿入する。
このアダプタは、空間周波数コエキスパート構造を用いて、モダリティ固有のキューをキャプチャし、画素ワイドルータは、効率的な空間周波数融合のためのエキスパートコントリビューションを動的にバランスさせる。
4つのマルチモーダル・ベンチマーク・データセットで行った大規模な実験により,提案手法の有効性と一般化能力が示された。
関連論文リスト
- DM$^3$T: Harmonizing Modalities via Diffusion for Multi-Object Tracking [10.270441242480482]
本稿では,マルチモーダル融合を反復的特徴アライメントプロセスとして再構成する新しいフレームワークであるDM$3$Tを提案する。
提案するクロスモーダル拡散融合(C-MDF)モジュールを用いて,反復的クロスモーダル調和を行う。
トラッカーのロバスト性をさらに向上するために,信頼性推定を適応的に処理する階層型トラッカーを設計する。
論文 参考訳(メタデータ) (2025-11-28T06:02:58Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection [2.9153096940947796]
本稿では,2つのモードの情報の有効性を評価するために,GRNet(GRNet)を提案する。
知覚エンコーダを用いてマルチレベル単一モード特徴を抽出する。
無効な情報を抑制し、有効なモーダル特徴を復号ミキサとハイブリッド分岐復号器に転送するために、モーダル適応ゲートユニットを提案する。
論文 参考訳(メタデータ) (2021-08-13T15:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。