論文の概要: Enhancing Small Object Detection with YOLO: A Novel Framework for Improved Accuracy and Efficiency
- arxiv url: http://arxiv.org/abs/2512.07379v1
- Date: Mon, 08 Dec 2025 10:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.830068
- Title: Enhancing Small Object Detection with YOLO: A Novel Framework for Improved Accuracy and Efficiency
- Title(参考訳): YOLOによる小型物体検出の高速化: 精度と効率性向上のための新しいフレームワーク
- Authors: Mahila Moghadami, Mohammad Ali Keyvanrad, Melika Sabaghian,
- Abstract要約: 本稿では,大規模空中画像における小型物体の検出手法について検討・開発する。
我々は,小型物体検出において,刈り取り寸法を改良し,スライディングウインドウ使用時の重なりを改良し,その速度と精度を向上させるため,ベースSW-YOLO手法を採用した。
本稿では,特徴マップの強化のために,特徴抽出モジュールを首に組み込んだ基本モデルアーキテクチャを改良した新しいモデルを提案する。
我々は,大規模画像処理の最も強力なフレームワークであるSAHIと,画像トリミングにもとづくCZDetを比較し,精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates and develops methods for detecting small objects in large-scale aerial images. Current approaches for detecting small objects in aerial images often involve image cropping and modifications to detector network architectures. Techniques such as sliding window cropping and architectural enhancements, including higher-resolution feature maps and attention mechanisms, are commonly employed. Given the growing importance of aerial imagery in various critical and industrial applications, the need for robust frameworks for small object detection becomes imperative. To address this need, we adopted the base SW-YOLO approach to enhance speed and accuracy in small object detection by refining cropping dimensions and overlap in sliding window usage and subsequently enhanced it through architectural modifications. we propose a novel model by modifying the base model architecture, including advanced feature extraction modules in the neck for feature map enhancement, integrating CBAM in the backbone to preserve spatial and channel information, and introducing a new head to boost small object detection accuracy. Finally, we compared our method with SAHI, one of the most powerful frameworks for processing large-scale images, and CZDet, which is also based on image cropping, achieving significant improvements in accuracy. The proposed model achieves significant accuracy gains on the VisDrone2019 dataset, outperforming baseline YOLOv5L detection by a substantial margin. Specifically, the final proposed model elevates the mAP .5.5 accuracy on the VisDrone2019 dataset from the base accuracy of 35.5 achieved by the YOLOv5L detector to 61.2. Notably, the accuracy of CZDet, which is another classic method applied to this dataset, is 58.36. This research demonstrates a significant improvement, achieving an increase in accuracy from 35.5 to 61.2.
- Abstract(参考訳): 本稿では,大規模空中画像における小型物体の検出手法について検討・開発する。
空中画像中の小さな物体を検出するための現在のアプローチは、しばしば画像のトリミングと検出器ネットワークアーキテクチャの変更を伴う。
スライディングウインドウの収穫や高解像度の特徴マップやアテンション機構などのアーキテクチャ拡張といった技術が一般的である。
様々な臨界・工業的応用における航空画像の重要性の高まりを踏まえ、小型物体検出のための堅牢なフレームワークの必要性が重要となる。
そこで我々は,小型物体検出における高速かつ高精度なSW-YOLO手法を,トリミング次元を改良し,スライディングウインドウ使用時の重なりを改良し,アーキテクチャ修正により拡張した。
本稿では,特徴マップの強化のために首に高度な特徴抽出モジュールを含む基本モデルアーキテクチャを改良し,空間情報とチャネル情報を保存するためにCBAMを背骨に統合し,小さな物体検出精度を高めるために新しいヘッドを導入することにより,新しいモデルを提案する。
最後に、大規模画像処理の最も強力なフレームワークであるSAHIと、画像トリミングにもとづくCZDetを比較し、精度を大幅に向上させた。
提案モデルでは,VisDrone2019データセットの精度が大幅に向上し,ベースラインのYOLOv5Lの検出精度が大幅に向上した。
具体的には、最終的に提案されたモデルは、VisDrone2019データセットのmAP .5.5の精度を、YOLOv5L検出器によって達成された35.5の精度から61.2に高める。
特に、このデータセットに適用された別の古典的手法であるCZDetの精度は58.36である。
本研究は精度が35.5から61.2に向上したことを示す。
関連論文リスト
- RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models [48.91205564876609]
軽量物体検出器の高効率化を目的とした,コスト効率・高適合性蒸留フレームワークを提案する。
当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現しています。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
論文 参考訳(メタデータ) (2025-10-29T08:13:17Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - From Blurry to Brilliant Detection: YOLO-Based Aerial Object Detection with Super Resolution [3.5044007821404635]
空中物体検出は、小さな物体の大きさ、高密度クラスタリング、距離や動きのぼかしによる画質劣化などの課題を提示する。
B2BDetは、推論中にドメイン固有の超解像を適用し、拡張されたYOLOv5アーキテクチャを使って検出する2段階のフレームワークでこの問題に対処する。
このアプローチは、航空最適化SRGAN微調整とEAM(Efficient Attention Module)やCLFPN(Cross-Layer Feature Pyramid Network)といったアーキテクチャ革新を組み合わせる。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - HIC-YOLOv5: Improved YOLOv5 For Small Object Detection [2.4780916008623834]
改良されたYOLOv5モデル: 上記の問題に対処するためにHIC-YOLOv5を提案する。
バックボーンとネックの間には、インボリューションブロックが採用され、特徴マップのチャネル情報を増加させる。
我々の結果は、HIC-YOLOv5がmAP@[.5:.95]を6.42%改善し、mAP@0.5を9.38%改善したことを示している。
論文 参考訳(メタデータ) (2023-09-28T12:40:36Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。