論文の概要: High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery
- arxiv url: http://arxiv.org/abs/2507.00825v3
- Date: Mon, 10 Nov 2025 07:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.373682
- Title: High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery
- Title(参考訳): 干渉型UAV画像における終端検出変圧器の高周波セマンティックスと幾何学的先行
- Authors: Hongxing Peng, Lide Chen, Hui Zhu, Yan Chen,
- Abstract要約: 本稿では,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを紹介する。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に、高分解能特徴を効率的に融合させることにより、情報損失に対処する。
第三に、2つの相乗的成分を用いてデコーダの安定性と位置決め精度を向上させる。
- 参考スコア(独自算出の注目度): 6.902247657565531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection in Unmanned Aerial Vehicle (UAV) imagery is fundamentally challenged by a prevalence of small, densely packed, and occluded objects within cluttered backgrounds. Conventional detectors struggle with this domain, as they rely on hand-crafted components like pre-defined anchors and heuristic-based Non-Maximum Suppression (NMS), creating a well-known performance bottleneck in dense scenes. Even recent end-to-end frameworks have not been purpose-built to overcome these specific aerial challenges, resulting in a persistent performance gap. To bridge this gap, we introduce HEDS-DETR, a holistically enhanced real-time Detection Transformer tailored for aerial scenes. Our framework features three key innovations. First, we propose a novel High-Frequency Enhanced Semantics Network (HFESNet) backbone, which yields highly discriminative features by preserving critical high-frequency details alongside robust semantic context. Second, our Efficient Small Object Pyramid (ESOP) counteracts information loss by efficiently fusing high-resolution features, significantly boosting small object detection. Finally, we enhance decoder stability and localization precision with two synergistic components: Selective Query Recollection (SQR) and Geometry-Aware Positional Encoding (GAPE), which stabilize optimization and provide explicit spatial priors for dense object arrangements. On the VisDrone dataset, HEDS-DETR achieves a +3.8% AP and +5.1% AP50 gain over its baseline while reducing parameters by 4M and maintaining real-time speeds. This demonstrates a highly competitive accuracy-efficiency balance, especially for detecting dense and small objects in aerial scenes.
- Abstract(参考訳): 無人航空機(UAV)画像における物体検出は、乱雑な背景の小さな、密集した、あるいは隠蔽された物体の出現によって、基本的には困難である。
従来の検出器は、事前に定義されたアンカーやヒューリスティックベースのNMS(Non-Maximum Suppression)のような手作りのコンポーネントに依存しており、密集したシーンでよく知られたパフォーマンスボトルネックを生み出している。
最近のエンドツーエンドフレームワークでさえ、これらの特定の課題を克服する目的で構築されていないため、パフォーマンスのギャップが持続する。
このギャップを埋めるために,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを導入する。
私たちのフレームワークには3つの重要なイノベーションがあります。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に,高分解能な特徴を効率的に融合させることにより,情報損失の低減を図り,小物体検出を著しく促進する。
最後に,SQR(Selective Query Recollection)とGAPE(Geometry-Aware Positional Encoding)の2つの相乗的成分を用いて,デコーダの安定性と局所化精度を向上させる。
VisDroneデータセットでは、HEDS-DETRはベースラインで+3.8%のAP50と+5.1%のAP50を獲得し、パラメータを4M削減し、リアルタイム速度を維持する。
これは高度に競争力のある精度と効率のバランスを示し、特に空中のシーンで密集した小さな物体を検知する。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - ARFC-WAHNet: Adaptive Receptive Field Convolution and Wavelet-Attentive Hierarchical Network for Infrared Small Target Detection [2.643590634429843]
ARFC-WAHNetは、赤外線小ターゲット検出のための適応型受容野畳み込みおよびウェーブレット減衰階層ネットワークである。
ARFC-WAHNetは、検出精度とロバスト性の両方において、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-15T09:44:23Z) - Dome-DETR: DETR with Density-Oriented Feature-Query Manipulation for Efficient Tiny Object Detection [7.16574066661446]
Dome-DETRは、高効率Tinyオブジェクト検出のための密度指向の特徴クエリ操作を備えた新しいフレームワークである。
最先端のパフォーマンス(AI-TOD-V2では+3.3 AP、VisDroneでは+2.5 AP)を実現し、計算の複雑さとコンパクトなモデルサイズを維持している。
論文 参考訳(メタデータ) (2025-05-09T02:44:06Z) - An Efficient Aerial Image Detection with Variable Receptive Fields [0.0]
3つの鍵成分を組み込んだ変圧器型検出器を提案する。
VRF-DETRは51.4%のmAPtextsubscript50と31.8%のmAPtextsubscript50:95を13.5Mパラメータで達成している。
論文 参考訳(メタデータ) (2025-04-21T15:16:13Z) - LGI-DETR: Local-Global Interaction for UAV Object Detection [0.0]
既存のエンド・ツー・エンドのオブジェクト検出器の多くは自然のシーン用に設計されている。
それらを直接UAV画像に適用するのは理想的ではない。
UAVのためのローカル・グローバル情報対話型DETRを設計する。
論文 参考訳(メタデータ) (2025-03-24T15:32:49Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - SCRDet++: Detecting Small, Cluttered and Rotated Objects via
Instance-Level Feature Denoising and Rotation Loss Smoothing [131.04304632759033]
小さくて散らばった物体は実世界では一般的であり、検出は困難である。
本稿では,まず,物体検出にデノナイズするアイデアを革新的に紹介する。
機能マップ上のインスタンスレベルの記述は、小さくて散らばったオブジェクトの検出を強化するために行われる。
論文 参考訳(メタデータ) (2020-04-28T06:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。