論文の概要: EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery
- arxiv url: http://arxiv.org/abs/2601.18597v1
- Date: Mon, 26 Jan 2026 15:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.907528
- Title: EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery
- Title(参考訳): EFSI-DETR:UAV画像におけるリアルタイム小物体検出のための効率的な周波数シーケンス統合
- Authors: Yu Xia, Chang Liu, Tianqi Xiang, Zhigang Tu,
- Abstract要約: EFSI-DETRは、効率的な意味的特徴強調と動的周波数空間誘導を統合する新しい検出フレームワークである。
VisDrone と CODrone のベンチマーク実験により,我々の EFSI-DETR が実時間効率で最先端の性能を達成することを示した。
- 参考スコア(独自算出の注目度): 10.339425380819513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time small object detection in Unmanned Aerial Vehicle (UAV) imagery remains challenging due to limited feature representation and ineffective multi-scale fusion. Existing methods underutilize frequency information and rely on static convolutional operations, which constrain the capacity to obtain rich feature representations and hinder the effective exploitation of deep semantic features. To address these issues, we propose EFSI-DETR, a novel detection framework that integrates efficient semantic feature enhancement with dynamic frequency-spatial guidance. EFSI-DETR comprises two main components: (1) a Dynamic Frequency-Spatial Unified Synergy Network (DyFusNet) that jointly exploits frequency and spatial cues for robust multi-scale feature fusion, (2) an Efficient Semantic Feature Concentrator (ESFC) that enables deep semantic extraction with minimal computational cost. Furthermore, a Fine-grained Feature Retention (FFR) strategy is adopted to incorporate spatially rich shallow features during fusion to preserve fine-grained details, crucial for small object detection in UAV imagery. Extensive experiments on VisDrone and CODrone benchmarks demonstrate that our EFSI-DETR achieves the state-of-the-art performance with real-time efficiency, yielding improvement of \textbf{1.6}\% and \textbf{5.8}\% in AP and AP$_{s}$ on VisDrone, while obtaining \textbf{188} FPS inference speed on a single RTX 4090 GPU.
- Abstract(参考訳): 無人航空機(UAV)画像における実時間小物体検出は、限られた特徴表現と非効率なマルチスケール核融合のため、依然として困難である。
既存の手法では、周波数情報を利用して静的畳み込み演算を頼りにしており、これによりリッチな特徴表現を得る能力が制限され、深い意味的特徴の効果的な活用が妨げられる。
これらの問題に対処するために,動的周波数空間ガイダンスと効率的な意味的特徴強調を統合した新しい検出フレームワークEFSI-DETRを提案する。
EFSI-DETR は,(1) 動的周波数・空間結合型シナジーネットワーク (DyFusNet) と,(2) 効率的な意味的特徴集中器 (ESFC) の2つのコンポーネントから構成される。
さらに,UAV画像における微小物体検出に不可欠な細粒度情報保存のために,核融合時に空間的に豊富な浅層特徴を取り入れるために,微細粒度特徴保持(FFR)戦略を採用した。
VisDrone と CODrone ベンチマークの大規模な実験により、我々の EFSI-DETR がリアルタイム効率で最先端の性能を達成し、単一の RTX 4090 GPU 上で \textbf{1.6}\% と \textbf{5.8}\% と \textbf{5.8}\% の改善と、 VisDrone 上の AP$_{s}$ の改善を実現し、同時に \textbf{188} FPS 推論速度を得ることを示した。
関連論文リスト
- UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects [7.1136620172045]
UAV画像の小さなターゲット検出は、スケールのばらつき、密度分布、小さなターゲットの優位性といった重要な課題に直面している。
本稿では、LSKNetベースのバックボーンネットワークを統合して、受容場を最適化し、パラメータ数を削減できる、エンドツーエンドのオブジェクト検出フレームワークUFO-DETRを提案する。
論文 参考訳(メタデータ) (2026-02-26T07:37:45Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection [18.023418423273082]
本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。
まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。
次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。
最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
論文 参考訳(メタデータ) (2025-09-27T02:28:22Z) - RT-DETR++ for UAV Object Detection [0.0]
本稿では,RT-DETRモデルのエンコーダコンポーネントを強化するRT-DETR++を提案する。
チャネルゲート型アテンションベースアップサンプリング/ダウンサンプリング機構を導入する。
第2に,機能融合時にCSP-PACを取り入れた。
論文 参考訳(メタデータ) (2025-09-11T05:33:52Z) - High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery [6.902247657565531]
本稿では,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを紹介する。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に、高分解能特徴を効率的に融合させることにより、情報損失に対処する。
第三に、2つの相乗的成分を用いてデコーダの安定性と位置決め精度を向上させる。
論文 参考訳(メタデータ) (2025-07-01T14:56:56Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。