論文の概要: SOD-YOLOv8 -- Enhancing YOLOv8 for Small Object Detection in Traffic Scenes
- arxiv url: http://arxiv.org/abs/2408.04786v1
- Date: Thu, 8 Aug 2024 23:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:58:32.988751
- Title: SOD-YOLOv8 -- Enhancing YOLOv8 for Small Object Detection in Traffic Scenes
- Title(参考訳): SOD-YOLOv8-交通現場での小型物体検出のためのYOLOv8の強化
- Authors: Boshra Khalili, Andrew W. Smyth,
- Abstract要約: Small Object Detection YOLOv8 (SOD-YOLOv8) は、多数の小さなオブジェクトを含むシナリオ用に設計されている。
SOD-YOLOv8は小さなオブジェクト検出を大幅に改善し、様々なメトリクスで広く使われているモデルを上回っている。
ダイナミックな現実世界の交通シーンでは、SOD-YOLOv8は様々な状況で顕著な改善を示した。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection as part of computer vision can be crucial for traffic management, emergency response, autonomous vehicles, and smart cities. Despite significant advances in object detection, detecting small objects in images captured by distant cameras remains challenging due to their size, distance from the camera, varied shapes, and cluttered backgrounds. To address these challenges, we propose Small Object Detection YOLOv8 (SOD-YOLOv8), a novel model specifically designed for scenarios involving numerous small objects. Inspired by Efficient Generalized Feature Pyramid Networks (GFPN), we enhance multi-path fusion within YOLOv8 to integrate features across different levels, preserving details from shallower layers and improving small object detection accuracy. Also, A fourth detection layer is added to leverage high-resolution spatial information effectively. The Efficient Multi-Scale Attention Module (EMA) in the C2f-EMA module enhances feature extraction by redistributing weights and prioritizing relevant features. We introduce Powerful-IoU (PIoU) as a replacement for CIoU, focusing on moderate-quality anchor boxes and adding a penalty based on differences between predicted and ground truth bounding box corners. This approach simplifies calculations, speeds up convergence, and enhances detection accuracy. SOD-YOLOv8 significantly improves small object detection, surpassing widely used models in various metrics, without substantially increasing computational cost or latency compared to YOLOv8s. Specifically, it increases recall from 40.1\% to 43.9\%, precision from 51.2\% to 53.9\%, $\text{mAP}_{0.5}$ from 40.6\% to 45.1\%, and $\text{mAP}_{0.5:0.95}$ from 24\% to 26.6\%. In dynamic real-world traffic scenes, SOD-YOLOv8 demonstrated notable improvements in diverse conditions, proving its reliability and effectiveness in detecting small objects even in challenging environments.
- Abstract(参考訳): コンピュータビジョンの一部としての物体検出は、交通管理、緊急対応、自動運転車、スマートシティにとって不可欠である。
物体検出の大幅な進歩にもかかわらず、遠方のカメラが捉えた画像の小さな物体の検出は、サイズ、カメラからの距離、形状、背景が散らばっているため、依然として困難である。
これらの課題に対処するために,多数の小オブジェクトを含むシナリオを対象とした新しいモデルであるSmall Object Detection YOLOv8(SOD-YOLOv8)を提案する。
Efficient Generalized Feature Pyramid Networks (GFPN) に触発されて、YOLOv8内のマルチパス融合を強化し、さまざまなレベルの機能を統合し、浅い層からの詳細を保存し、小さなオブジェクト検出精度を向上させる。
また、高解像度空間情報を効果的に活用するために、第4検出層を付加する。
C2f-EMAモジュールの効率的なマルチスケールアテンションモジュール(EMA)は、重み付けを再配布し、関連する特徴を優先順位付けすることで特徴抽出を強化する。
我々はCIoUの代替としてPowerful-IoU(PIoU)を導入し、中質なアンカーボックスに焦点をあて、予測された真実と接地するボックス角の違いに基づいてペナルティを追加する。
このアプローチは計算を単純化し、収束を高速化し、検出精度を高める。
SOD-YOLOv8は、YOLOv8に比べて計算コストや遅延を大幅に増加させることなく、様々なメトリクスで広く使われているモデルを上回る、小さなオブジェクト検出を大幅に改善する。
具体的には、リコールを40.1\%から43.9\%に、精度を51.2\%から53.9\%に、$\text{mAP}_{0.5}$を40.6\%から45.1\%に、$\text{mAP}_{0.5:0.95}$を24\%から26.6\%に引き上げる。
ダイナミックな現実世界の交通シーンでは、SOD-YOLOv8は様々な状況において顕著な改善を示し、課題のある環境でも小さな物体を検出できる信頼性と有効性を示した。
関連論文リスト
- DASSF: Dynamic-Attention Scale-Sequence Fusion for Aerial Object Detection [6.635903943457569]
元のYOLOアルゴリズムは、異なるスケールのターゲットを認識する能力の弱いため、全体的な検出精度が低い。
本稿では,空中画像のターゲット検出のための動的アテンションスケール系列融合アルゴリズム(DASSF)を提案する。
DASSF法をYOLOv8nと比較すると,平均平均精度(mAP)は9.2%,2.4%増加した。
論文 参考訳(メタデータ) (2024-06-18T05:26:44Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - Learned Two-Plane Perspective Prior based Image Resampling for Efficient
Object Detection [20.886999159134138]
リアルタイムの効率的な認識は、自律的なナビゲーションと都市規模のセンシングに不可欠である。
本研究では,3次元シーンの粗い形状を取り入れた学習可能な幾何学誘導先行手法を提案する。
提案手法は,4.1 $AP_S$ または +39% で検出率を向上し,また,4.3 $sAP_S$ または +63% で検出性能を向上する。
論文 参考訳(メタデータ) (2023-03-25T00:43:44Z) - An advanced YOLOv3 method for small object detection [2.906551456030129]
本稿では,小型物体検出のための改良型YOLOv3アルゴリズムを提案する。
提案手法では,拡張畳み込みミッシュ(DCM)モジュールをYOLOv3のバックボーンネットワークに導入する。
YOLOv3のネックネットワークでは、畳み込みブロックアテンションモジュール(CBAM)とマルチレベル融合モジュールが導入されている。
論文 参考訳(メタデータ) (2022-12-06T07:58:21Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Analysis and Adaptation of YOLOv4 for Object Detection in Aerial Images [0.0]
本研究は,空中画像中の物体とその位置を予測するためのYOLOv4フレームワークの適応性を示す。
トレーニングされたモデルは平均的な平均精度(mAP)が45.64%となり、推論速度はTesla K80 GPUで8.7FPSに達した。
いくつかの現代の空中物体検出器との比較研究により、YOLOv4はより優れた性能を示し、航空プラットフォームに組み込むのにより適した検出アルゴリズムが示唆された。
論文 参考訳(メタデータ) (2022-03-18T23:51:09Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Real-time object detection method based on improved YOLOv4-tiny [0.0]
YOLOv4-tiny は YOLOv4 に基づいて提案され,ネットワーク構造をシンプルにし,パラメータを削減する。
まず、Yolov4-tinyの2つのCSPBlockモジュールの代わりにResNet-Dネットワークで2つのResBlock-Dモジュールを使用する。
補助ネットワークの設計では、グローバルな特徴を抽出するために5x5の受容場を得るために2つの連続した3x3畳み込みを使用し、より効果的な情報を抽出するためにチャネルアテンションと空間アテンションも使用される。
論文 参考訳(メタデータ) (2020-11-09T08:26:28Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - NETNet: Neighbor Erasing and Transferring Network for Better Single Shot
Object Detection [170.30694322460045]
我々は、ピラミッドの特徴を再設定し、スケールアウェアな特徴を探索する新しいNeighbor Erasing and Transferring(NET)メカニズムを提案する。
NETNetと呼ばれるシングルショットネットワークは、スケールアウェアなオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2020-01-18T15:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。