論文の概要: DEPFusion: Dual-Domain Enhancement and Priority-Guided Mamba Fusion for UAV Multispectral Object Detection
- arxiv url: http://arxiv.org/abs/2509.07327v2
- Date: Mon, 29 Sep 2025 08:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.21456
- Title: DEPFusion: Dual-Domain Enhancement and Priority-Guided Mamba Fusion for UAV Multispectral Object Detection
- Title(参考訳): DEPFusion:UAVマルチスペクトル物体検出のためのデュアルドメイン拡張と優先誘導マンバ核融合
- Authors: Shucong Li, Zhenyu Liu, Zijie Hong, Zhiheng Zhou, Xianghai Cao,
- Abstract要約: DEPFusionというフレームワークがUAVマルチスペクトル物体検出のために提案されている。
デュアルドメイン強化(DDE)と優先誘導マンバ核融合(PGMF)から構成される。
DroneVehicleとVEDAIデータセットの実験は、DEPFusionが最先端の手法で優れたパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 6.4402018224356015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral object detection is an important application for unmanned aerial vehicles (UAVs). However, it faces several challenges. First, low-light RGB images weaken the multispectral fusion due to details loss. Second, the interference information is introduced to local target modeling during multispectral fusion. Third, computational cost poses deployment challenge on UAV platforms, such as transformer-based methods with quadratic complexity. To address these issues, a framework named DEPFusion consisting of two designed modules, Dual-Domain Enhancement (DDE) and Priority-Guided Mamba Fusion (PGMF) , is proposed for UAV multispectral object detection. Firstly, considering the adoption of low-frequency component for global brightness enhancement and frequency spectra features for texture-details recovery, DDE module is designed with Cross-Scale Wavelet Mamba (CSWM) block and Fourier Details Recovery (FDR) block. Secondly, considering guiding the scanning of Mamba from high priority score tokens, which contain local target feature, a novel Priority-Guided Serialization is proposed with theoretical proof. Based on it, PGMF module is designed for multispectral feature fusion, which enhance local modeling and reduce interference information. Experiments on DroneVehicle and VEDAI datasets demonstrate that DEPFusion achieves good performance with state-of-the-art methods.
- Abstract(参考訳): マルチスペクトル物体検出は無人航空機(UAV)にとって重要な応用である。
しかし、いくつかの課題に直面している。
第一に、低照度RGB画像は細部損失により多重スペクトル融合を弱める。
第二に、干渉情報はマルチスペクトル融合時の局所目標モデリングに導入される。
第3に、計算コストは、2次複雑さを持つトランスフォーマーベースの方法のようなUAVプラットフォームへのデプロイメント上の課題を引き起こす。
これらの問題に対処するため、UAVマルチスペクトルオブジェクト検出のために、DDE(Dual-Domain Enhancement)とPGMF(Preferity-Guided Mamba Fusion)という2つの設計モジュールからなるDEPFusionというフレームワークが提案されている。
まず,大域的輝度向上のための低周波成分の導入とテクスチャ・詳細回復のための周波数スペクトルの特徴を考慮すると,DDEモジュールはクロススケールウェーブレット・マンバ(CSWM)ブロックとフーリエ・リカバリ(FDR)ブロックで設計されている。
第二に、局所的目標特徴を含む高優先度スコアトークンからマンバの走査を導くことを考えると、理論的証明により新しい優先度誘導シリアライゼーションが提案される。
PGMFモジュールはマルチスペクトル特徴融合のために設計されており、局所モデリングを強化し干渉情報を低減している。
DroneVehicleとVEDAIデータセットの実験は、DEPFusionが最先端の手法で優れたパフォーマンスを達成することを実証している。
関連論文リスト
- Pyramidal Adaptive Cross-Gating for Multimodal Detection [0.0]
PACGNetは、バックボーン内で深い融合を実行するように設計されたアーキテクチャである。
Pモジュールは、プログレッシブ階層的ゲーティング機構を通じて特徴階層を再構築する。
私たちのPACGNetは、mAP50スコアがそれぞれ81.7%と82.1%という、最先端のベンチマークを新たに設定しています。
論文 参考訳(メタデータ) (2025-12-20T09:32:18Z) - MODA: The First Challenging Benchmark for Multispectral Object Detection in Aerial Images [26.48439423478357]
航空画像におけるマルチスペクトル物体検出のための最初の大規模データセット(MODA)を紹介する。
このデータセットは14,041のMSIと330,191のアノテーションで構成されている。
我々はまた、スペクトル情報と空間情報をオブジェクト認識キューに統合するフレームワークであるOSSDetを提案する。
論文 参考訳(メタデータ) (2025-12-10T10:07:06Z) - UAVD-Mamba: Deformable Token Fusion Vision Mamba for Multimodal UAV Detection [5.89878250955707]
UAVD-Mambaは、Mambaアーキテクチャに基づくマルチモーダルなUAVオブジェクト検出フレームワークである。
幾何学的適応性を改善するために,変形可能なToken Mamba Block (DTMB)を提案する。
マルチモーダルな特徴相補性を最適化するために、RGBと赤外線(IR)の2つの別々のDTMBを設計する。
論文 参考訳(メタデータ) (2025-07-01T15:21:27Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。