論文の概要: High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery
- arxiv url: http://arxiv.org/abs/2507.00825v1
- Date: Tue, 01 Jul 2025 14:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.676628
- Title: High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery
- Title(参考訳): 干渉型UAV画像における終端検出変圧器の高周波セマンティックスと幾何学的先行
- Authors: Hongxing Peng, Lide Chen, Hui Zhu, Yan Chen,
- Abstract要約: 無人航空機による物体検出(UAV-OD)は、小型の目標サイズ、高密度分布、UAV画像の散在した背景など、重大な課題に直面している。
本稿では,UAVに適した拡張リアルタイム検出トランスフォーマフレームワークHEGS-DETRを提案する。
VisDroneデータセットの実験では、HEGS-DETRが5.1%のAP$_50$と3.8%のAP増加を達成した。
- 参考スコア(独自算出の注目度): 4.833513511627847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unmanned Aerial Vehicle-based Object Detection (UAV-OD) faces substantial challenges, including small target sizes, high-density distributions, and cluttered backgrounds in UAV imagery. Current algorithms often depend on hand-crafted components like anchor boxes, which demand fine-tuning and exhibit limited generalization, and Non-Maximum Suppression (NMS), which is threshold-sensitive and prone to misclassifying dense objects. These generic architectures thus struggle to adapt to aerial imaging characteristics, resulting in performance limitations. Moreover, emerging end-to-end frameworks have yet to effectively mitigate these aerial-specific challenges.To address these issues, we propose HEGS-DETR, a comprehensively enhanced, real-time Detection Transformer framework tailored for UAVs. First, we introduce the High-Frequency Enhanced Semantics Network (HFESNet) as a novel backbone. HFESNet preserves critical high-frequency spatial details to extract robust semantic features, thereby improving discriminative capability for small and occluded targets in complex backgrounds. Second, our Efficient Small Object Pyramid (ESOP) strategy strategically fuses high-resolution feature maps with minimal computational overhead, significantly boosting small object detection. Finally, the proposed Selective Query Recollection (SQR) and Geometry-Aware Positional Encoding (GAPE) modules enhance the detector's decoder stability and localization accuracy, effectively optimizing bounding boxes and providing explicit spatial priors for dense scenes. Experiments on the VisDrone dataset demonstrate that HEGS-DETR achieves a 5.1\% AP$_{50}$ and 3.8\% AP increase over the baseline, while maintaining real-time speed and reducing parameter count by 4M.
- Abstract(参考訳): 無人航空機による物体検出(UAV-OD)は、小型の目標サイズ、高密度分布、UAV画像の散在した背景など、重大な課題に直面している。
現在のアルゴリズムは、細調整と限定的な一般化を要求するアンカーボックスや、閾値に敏感で密度の高い物体を誤分類する傾向のある非最大抑圧(NMS)など、手作りの部品に依存していることが多い。
これらの汎用アーキテクチャは、空中撮像特性に適応するのに苦労し、性能の限界をもたらす。
さらに,これらの課題に対処するために,UAVに適した拡張されたリアルタイム検出トランスフォーマフレームワークであるHEGS-DETRを提案する。
まず,HFESNet(High-Frequency Enhanced Semantics Network)を新しいバックボーンとして紹介する。
HFESNetは、重要な高周波空間の詳細を保存し、ロバストなセマンティックな特徴を抽出し、複雑な背景において、小さく、隠蔽されたターゲットの識別能力を向上させる。
第二に、私たちのESOP戦略は、最小の計算オーバーヘッドで高解像度の特徴マップを戦略的に融合させ、小さな物体の検出を大幅に促進します。
最後に、SQR(Selective Query Recollection)とGAPE(Geometry-Aware Positional Encoding)モジュールが提案され、検出器のデコーダ安定性とローカライゼーションの精度を高め、バウンディングボックスを効果的に最適化し、密集したシーンに対して空間的事前情報を提供する。
VisDroneデータセットの実験では、HEGS-DETRはベースライン上でのAP$_{50}$5.1\%、AP$3.8\%の増加を実現し、リアルタイム速度を維持し、パラメータ数を4M削減した。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - ARFC-WAHNet: Adaptive Receptive Field Convolution and Wavelet-Attentive Hierarchical Network for Infrared Small Target Detection [2.643590634429843]
ARFC-WAHNetは、赤外線小ターゲット検出のための適応型受容野畳み込みおよびウェーブレット減衰階層ネットワークである。
ARFC-WAHNetは、検出精度とロバスト性の両方において、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-15T09:44:23Z) - An Efficient Aerial Image Detection with Variable Receptive Fields [0.0]
3つの鍵成分を組み込んだ変圧器型検出器を提案する。
VRF-DETRは51.4%のmAPtextsubscript50と31.8%のmAPtextsubscript50:95を13.5Mパラメータで達成している。
論文 参考訳(メタデータ) (2025-04-21T15:16:13Z) - LGI-DETR: Local-Global Interaction for UAV Object Detection [0.0]
既存のエンド・ツー・エンドのオブジェクト検出器の多くは自然のシーン用に設計されている。
それらを直接UAV画像に適用するのは理想的ではない。
UAVのためのローカル・グローバル情報対話型DETRを設計する。
論文 参考訳(メタデータ) (2025-03-24T15:32:49Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - SCRDet++: Detecting Small, Cluttered and Rotated Objects via
Instance-Level Feature Denoising and Rotation Loss Smoothing [131.04304632759033]
小さくて散らばった物体は実世界では一般的であり、検出は困難である。
本稿では,まず,物体検出にデノナイズするアイデアを革新的に紹介する。
機能マップ上のインスタンスレベルの記述は、小さくて散らばったオブジェクトの検出を強化するために行われる。
論文 参考訳(メタデータ) (2020-04-28T06:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。