論文の概要: LAF-YOLOv10 with Partial Convolution Backbone, Attention-Guided Feature Pyramid, Auxiliary P2 Head, and Wise-IoU Loss for Small Object Detection in Drone Aerial Imagery
- arxiv url: http://arxiv.org/abs/2602.13378v1
- Date: Fri, 13 Feb 2026 18:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.009351
- Title: LAF-YOLOv10 with Partial Convolution Backbone, Attention-Guided Feature Pyramid, Auxiliary P2 Head, and Wise-IoU Loss for Small Object Detection in Drone Aerial Imagery
- Title(参考訳): LAF-YOLOv10 ドローン空中画像における小型物体検出のための部分畳み込みバックボーン, 注意誘導型特徴ピラミッド, 補助P2ヘッド, ワイズIoU損失
- Authors: Sohail Ali Farooqui, Zuhair Ahmed Khan Taha, Mohammed Mudassir Uddin, Shahnawaz Alam,
- Abstract要約: 無人航空機は、監視、交通監視、災害対応のための主要なセンシングプラットフォームとして機能する。
現在の検出器は、わずか数ピクセルのターゲット、散らかった背景、重い閉塞、厳格な計算予算など、UAV固有の課題に対処している。
この研究は、YOLOv10n上に構築されたRAF-YOLOv10を紹介し、ドローン画像の小さな物体検出を改善するために4つの補完技術を統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles serve as primary sensing platforms for surveillance, traffic monitoring, and disaster response, making aerial object detection a central problem in applied computer vision. Current detectors struggle with UAV-specific challenges: targets spanning only a few pixels, cluttered backgrounds, heavy occlusion, and strict onboard computational budgets. This study introduces LAF-YOLOv10, built on YOLOv10n, integrating four complementary techniques to improve small-object detection in drone imagery. A Partial Convolution C2f (PC-C2f) module restricts spatial convolution to one quarter of backbone channels, reducing redundant computation while preserving discriminative capacity. An Attention-Guided Feature Pyramid Network (AG-FPN) inserts Squeeze-and-Excitation channel gates before multi-scale fusion and replaces nearest-neighbor upsampling with DySample for content-aware interpolation. An auxiliary P2 detection head at 160$\times$160 resolution extends localization to objects below 8$\times$8 pixels, while the P5 head is removed to redistribute parameters. Wise-IoU v3 replaces CIoU for bounding box regression, attenuating gradients from noisy annotations in crowded aerial scenes. The four modules address non-overlapping bottlenecks: PC-C2f compresses backbone computation, AG-FPN refines cross-scale fusion, the P2 head recovers spatial resolution, and Wise-IoU stabilizes regression under label noise. No individual component is novel; the contribution is the joint integration within a single YOLOv10 framework. Across three training runs (seeds 42, 123, 256), LAF-YOLOv10 achieves 35.1$\pm$0.3\% mAP@0.5 on VisDrone-DET2019 with 2.3\,M parameters, exceeding YOLOv10n by 3.3 points. Cross-dataset evaluation on UAVDT yields 35.8$\pm$0.4\% mAP@0.5. Benchmarks on NVIDIA Jetson Orin Nano confirm 24.3 FPS at FP16, demonstrating viability for embedded UAV deployment.
- Abstract(参考訳): 無人航空機は、監視、交通監視、災害対応のための主要なセンシングプラットフォームとして機能し、空中物体の検出がコンピュータビジョンの応用の中心的な問題となる。
現在の検出器は、わずか数ピクセルのターゲット、散らかった背景、重い閉塞、厳格な計算予算など、UAV固有の課題に対処している。
この研究は、YOLOv10n上に構築されたRAF-YOLOv10を紹介し、ドローン画像の小さな物体検出を改善するために4つの補完技術を統合する。
部分的畳み込みC2f(PC-C2f)モジュールは、空間的畳み込みを1/4のバックボーンチャネルに制限し、識別能力を維持しながら冗長な計算を減らす。
Attention-Guided Feature Pyramid Network (AG-FPN)は、マルチスケール融合の前にSqueeze-and-Excitationチャネルゲートを挿入し、コンテンツ認識補間のために隣り合うDySampleに置き換える。
160$\times$160解像度の補助的なP2検出ヘッドは8$\times$8ピクセル以下のオブジェクトへのローカライゼーションを拡張し、P5ヘッドはパラメータを再分割するために除去される。
Wise-IoU v3はCIoUをバウンディングボックスレグレッションに置き換え、混雑した風景におけるノイズの多いアノテーションからの勾配を緩和する。
PC-C2fはバックボーン計算を圧縮し、AG-FPNはクロススケール融合を洗練し、P2ヘッドは空間分解能を回復し、Wise-IoUはラベルノイズ下で回帰を安定化する。
このコントリビューションは、単一のYOLOv10フレームワーク内での統合である。
LAF-YOLOv10は3回のトレーニング(42, 123, 256)で35.1$\pm$0.3\% mAP@0.5をVisDrone-DET2019で達成し、2.3\,MパラメータでYOLOv10nを3.3ポイント上回る。
UAVDTのクロスデータセット評価は35.8$\pm$0.4\% mAP@0.5である。
NVIDIA Jetson Orin Nanoのベンチマークでは、FP16で24.3 FPSを確認し、組み込みUAVデプロイメントの可能性を実証している。
関連論文リスト
- Traffic Scene Small Target Detection Method Based on YOLOv8n-SPTS Model for Autonomous Driving [0.0]
自律運転の主な課題は、動的知覚における小さな目標認識である。
既存のアルゴリズムでは、小さなターゲット情報が不足しているため、検出性能が低下している。
小型交通目標の検出精度を向上させる改良型YOLOv8n-SPTSモデルを提案する。
論文 参考訳(メタデータ) (2025-12-10T03:46:57Z) - DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection [16.16000521213211]
UAVリモートセンシング画像の小型物体検出は困難である。
現在の変圧器ベースの検出器は、3つの重要な問題に悩まされている。
本稿ではDFIR-DETRを導入し,周波数領域処理と組み合わせた動的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T01:25:10Z) - MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - An Efficient Aerial Image Detection with Variable Receptive Fields [0.0]
3つの鍵成分を組み込んだ変圧器型検出器を提案する。
VRF-DETRは51.4%のmAPtextsubscript50と31.8%のmAPtextsubscript50:95を13.5Mパラメータで達成している。
論文 参考訳(メタデータ) (2025-04-21T15:16:13Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。