論文の概要: EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery
- arxiv url: http://arxiv.org/abs/2601.18597v1
- Date: Mon, 26 Jan 2026 15:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.907528
- Title: EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery
- Title(参考訳): EFSI-DETR:UAV画像におけるリアルタイム小物体検出のための効率的な周波数シーケンス統合
- Authors: Yu Xia, Chang Liu, Tianqi Xiang, Zhigang Tu,
- Abstract要約: EFSI-DETRは、効率的な意味的特徴強調と動的周波数空間誘導を統合する新しい検出フレームワークである。
VisDrone と CODrone のベンチマーク実験により,我々の EFSI-DETR が実時間効率で最先端の性能を達成することを示した。
- 参考スコア(独自算出の注目度): 10.339425380819513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time small object detection in Unmanned Aerial Vehicle (UAV) imagery remains challenging due to limited feature representation and ineffective multi-scale fusion. Existing methods underutilize frequency information and rely on static convolutional operations, which constrain the capacity to obtain rich feature representations and hinder the effective exploitation of deep semantic features. To address these issues, we propose EFSI-DETR, a novel detection framework that integrates efficient semantic feature enhancement with dynamic frequency-spatial guidance. EFSI-DETR comprises two main components: (1) a Dynamic Frequency-Spatial Unified Synergy Network (DyFusNet) that jointly exploits frequency and spatial cues for robust multi-scale feature fusion, (2) an Efficient Semantic Feature Concentrator (ESFC) that enables deep semantic extraction with minimal computational cost. Furthermore, a Fine-grained Feature Retention (FFR) strategy is adopted to incorporate spatially rich shallow features during fusion to preserve fine-grained details, crucial for small object detection in UAV imagery. Extensive experiments on VisDrone and CODrone benchmarks demonstrate that our EFSI-DETR achieves the state-of-the-art performance with real-time efficiency, yielding improvement of \textbf{1.6}\% and \textbf{5.8}\% in AP and AP$_{s}$ on VisDrone, while obtaining \textbf{188} FPS inference speed on a single RTX 4090 GPU.
- Abstract(参考訳): 無人航空機(UAV)画像における実時間小物体検出は、限られた特徴表現と非効率なマルチスケール核融合のため、依然として困難である。
既存の手法では、周波数情報を利用して静的畳み込み演算を頼りにしており、これによりリッチな特徴表現を得る能力が制限され、深い意味的特徴の効果的な活用が妨げられる。
これらの問題に対処するために,動的周波数空間ガイダンスと効率的な意味的特徴強調を統合した新しい検出フレームワークEFSI-DETRを提案する。
EFSI-DETR は,(1) 動的周波数・空間結合型シナジーネットワーク (DyFusNet) と,(2) 効率的な意味的特徴集中器 (ESFC) の2つのコンポーネントから構成される。
さらに,UAV画像における微小物体検出に不可欠な細粒度情報保存のために,核融合時に空間的に豊富な浅層特徴を取り入れるために,微細粒度特徴保持(FFR)戦略を採用した。
VisDrone と CODrone ベンチマークの大規模な実験により、我々の EFSI-DETR がリアルタイム効率で最先端の性能を達成し、単一の RTX 4090 GPU 上で \textbf{1.6}\% と \textbf{5.8}\% と \textbf{5.8}\% の改善と、 VisDrone 上の AP$_{s}$ の改善を実現し、同時に \textbf{188} FPS 推論速度を得ることを示した。
関連論文リスト
- FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection [18.023418423273082]
本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。
まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
論文 参考訳(メタデータ) (2025-09-27T02:28:22Z) - RT-DETR++ for UAV Object Detection [0.0]
本稿では,RT-DETRモデルのエンコーダコンポーネントを強化するRT-DETR++を提案する。
チャネルゲート型アテンションベースアップサンプリング/ダウンサンプリング機構を導入する。
第2に,機能融合時にCSP-PACを取り入れた。
論文 参考訳(メタデータ) (2025-09-11T05:33:52Z) - High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery [6.902247657565531]
本稿では,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを紹介する。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に、高分解能特徴を効率的に融合させることにより、情報損失に対処する。
第三に、2つの相乗的成分を用いてデコーダの安定性と位置決め精度を向上させる。
論文 参考訳(メタデータ) (2025-07-01T14:56:56Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。