論文の概要: UAVD-Mamba: Deformable Token Fusion Vision Mamba for Multimodal UAV Detection
- arxiv url: http://arxiv.org/abs/2507.00849v1
- Date: Tue, 01 Jul 2025 15:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.691925
- Title: UAVD-Mamba: Deformable Token Fusion Vision Mamba for Multimodal UAV Detection
- Title(参考訳): UAVD-Mamba:マルチモーダルUAV検出のための変形可能なToken Fusion Vision Mamba
- Authors: Wei Li, Jiaman Tang, Yang Li, Beihao Xia, Ligang Tan, Hongmao Qin,
- Abstract要約: UAVD-Mambaは、Mambaアーキテクチャに基づくマルチモーダルなUAVオブジェクト検出フレームワークである。
幾何学的適応性を改善するために,変形可能なToken Mamba Block (DTMB)を提案する。
マルチモーダルな特徴相補性を最適化するために、RGBと赤外線(IR)の2つの別々のDTMBを設計する。
- 参考スコア(独自算出の注目度): 5.89878250955707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicle (UAV) object detection has been widely used in traffic management, agriculture, emergency rescue, etc. However, it faces significant challenges, including occlusions, small object sizes, and irregular shapes. These challenges highlight the necessity for a robust and efficient multimodal UAV object detection method. Mamba has demonstrated considerable potential in multimodal image fusion. Leveraging this, we propose UAVD-Mamba, a multimodal UAV object detection framework based on Mamba architectures. To improve geometric adaptability, we propose the Deformable Token Mamba Block (DTMB) to generate deformable tokens by incorporating adaptive patches from deformable convolutions alongside normal patches from normal convolutions, which serve as the inputs to the Mamba Block. To optimize the multimodal feature complementarity, we design two separate DTMBs for the RGB and infrared (IR) modalities, with the outputs from both DTMBs integrated into the Mamba Block for feature extraction and into the Fusion Mamba Block for feature fusion. Additionally, to improve multiscale object detection, especially for small objects, we stack four DTMBs at different scales to produce multiscale feature representations, which are then sent to the Detection Neck for Mamba (DNM). The DNM module, inspired by the YOLO series, includes modifications to the SPPF and C3K2 of YOLOv11 to better handle the multiscale features. In particular, we employ cross-enhanced spatial attention before the DTMB and cross-channel attention after the Fusion Mamba Block to extract more discriminative features. Experimental results on the DroneVehicle dataset show that our method outperforms the baseline OAFA method by 3.6% in the mAP metric. Codes will be released at https://github.com/GreatPlum-hnu/UAVD-Mamba.git.
- Abstract(参考訳): 無人航空機(UAV)の物体検出は、交通管理、農業、緊急救助などに広く用いられている。
しかし、オクルージョン、小さな物体の大きさ、不規則な形状など、大きな課題に直面している。
これらの課題は、堅牢で効率的なマルチモーダルUAVオブジェクト検出法の必要性を強調している。
マンバはマルチモーダル画像融合においてかなりの可能性を示した。
そこで本研究では,マルチモーダルなUAVオブジェクト検出フレームワークであるUAVD-Mambaを提案する。
変形可能なコンボリューションからの適応パッチを通常のコンボリューションからの通常のパッチと並行して組み込むことにより,変形可能なトークンを生成するための変形可能なToken Mamba Block(DTMB)を提案する。
マルチモーダルな特徴相補性を最適化するために、RGBと赤外線(IR)の2つの別々のDTMBを設計し、特徴抽出のために両方のDTMBをMambaブロックに統合し、特徴融合のためにFusion Mambaブロックに出力する。
さらに、特に小さなオブジェクトに対して、マルチスケールのオブジェクト検出を改善するために、4つのDTMBを異なるスケールで積み重ねてマルチスケールの特徴表現を生成し、それをDNM(Decepting Neck for Mamba)に送信する。
YOLOシリーズにインスパイアされたDNMモジュールは、YOLOv11のSPPFとC3K2を改良し、マルチスケール機能をより良く扱えるようにした。
特に,統合マンバブロック後のDTMB前における空間的注意とチャネル間注意を用いて,より差別的な特徴を抽出する。
DroneVehicle データセットの実験結果から,本手法はmAP の基準値である OAFA を3.6% 上回る性能を示した。
コードはhttps://github.com/GreatPlum-hnu/UAVD-Mamba.gitでリリースされる。
関連論文リスト
- HTMNet: A Hybrid Network with Transformer-Mamba Bottleneck Multimodal Fusion for Transparent and Reflective Objects Depth Completion [9.235004977824026]
透明で反射的な物体は深度センサーに重大な課題をもたらす。
本稿では,Transformer,CNN,Mambaアーキテクチャを統合した新しいハイブリッドモデルであるHTMNetを提案する。
本稿では,自己アテンション機構と状態空間モデルに基づく新しいマルチモーダル融合モジュールを提案する。
論文 参考訳(メタデータ) (2025-05-27T08:51:38Z) - MDDFNet: Mamba-based Dynamic Dual Fusion Network for Traffic Sign Detection [0.081585306387285]
交通信号検出のための新しいオブジェクト検出ネットワークであるMDDFNetを提案する。
ネットワークは動的二重融合モジュールとMambaベースのバックボーンを統合し、上記の問題に同時に対処する。
TT100K(Tsinghua-Tencent 100K)データセットで実施された大規模な実験は、MDDFNetが他の最先端検出器よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-05-02T14:53:25Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。