論文の概要: Traffic Scene Small Target Detection Method Based on YOLOv8n-SPTS Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.09296v1
- Date: Wed, 10 Dec 2025 03:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.388149
- Title: Traffic Scene Small Target Detection Method Based on YOLOv8n-SPTS Model for Autonomous Driving
- Title(参考訳): 自律運転用YOLOv8n-SPTSモデルに基づく交通現場小目標検出手法
- Authors: Songhan Wu,
- Abstract要約: 自律運転の主な課題は、動的知覚における小さな目標認識である。
既存のアルゴリズムでは、小さなターゲット情報が不足しているため、検出性能が低下している。
小型交通目標の検出精度を向上させる改良型YOLOv8n-SPTSモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the key issue in autonomous driving: small target recognition in dynamic perception. Existing algorithms suffer from poor detection performance due to missing small target information, scale imbalance, and occlusion. We propose an improved YOLOv8n-SPTS model, which enhances the detection accuracy of small traffic targets through three key innovations: First, optimizing the feature extraction module. In the Backbone Bottleneck structure of YOLOv8n, 4 traditional convolution modules are replaced with Space-to-Depth Convolution (SPD-Conv) modules. This module retains fine-grained information through space-to-depth conversion, reduces information loss, and enhances the ability to capture features of low-resolution small targets. Second, enhancing feature fusion capability. The Spatial Pyramid Pooling - Fast Cross Stage Partial Connection (SPPFCSPC) module is introduced to replace the original SPPF module, integrating the multi-scale feature extraction from Spatial Pyramid Pooling (SPP) and the feature fusion mechanism of Cross Stage Partial Connection (CSP), thereby improving the model's contextual understanding of complex scenes and multi-scale feature expression ability. Third, designing a dedicated detection structure for small targets. A Triple-Stage Feature Pyramid (TSFP) structure is proposed, which adds a 160*160 small target detection head to the original detection heads to fully utilize high-resolution features in shallow layers; meanwhile, redundant large target detection heads are removed to balance computational efficiency. Comparative experiments on the VisDrone2019-DET dataset show that YOLOv8n-SPTS model ranks first in precision (61.9%), recall (48.3%), mAP@0.5 (52.6%), and mAP@0.5:0.95 (32.6%). Visualization results verify that the miss rate of small targets such as pedestrians and bicycles in occluded and dense scenes is significantly reduced.
- Abstract(参考訳): 本稿では、自律運転における重要な課題である、動的知覚における小さな目標認識に焦点を当てる。
既存のアルゴリズムは、小さなターゲット情報不足、スケール不均衡、オクルージョンによる検出性能の低下に悩まされている。
改良されたYOLOv8n-SPTSモデルを提案する。
YOLOv8nのバックボーン・ボトルネック構造では、4つの伝統的な畳み込みモジュールがスペース・トゥ・ディープス・コンボリューション(SPD-Conv)モジュールに置き換えられている。
このモジュールは、空間から深度への変換を通じて微細な情報を保持し、情報損失を低減し、低解像度の小さなターゲットの特徴を捉える能力を高める。
第二に、機能融合能力の向上。
空間ピラミッドプール - 高速クロスステージ部分接続(SPPFCSPC)モジュールを導入し、空間ピラミッドプール(SPP)からのマルチスケール特徴抽出とクロスステージ部分接続(CSP)の機能融合機構を統合し、複雑なシーンのコンテキスト理解とマルチスケール特徴表現能力を向上させる。
第3に、小さな目標に対して専用の検出構造を設計する。
従来の検出ヘッドに160*160個の小型目標検出ヘッドを付加して浅層における高解像度特徴をフル活用するTSFP構造を提案し, 冗長な大規模目標検出ヘッドを除去して計算効率を向上する。
VisDrone2019-DETデータセットの比較実験によると、YOLOv8n-SPTSモデルは、まず精度61.9%、リコール48.3%、mAP@0.552.6%、mAP@0.5:0.95(32.6%)である。
可視化の結果,密集したシーンにおける歩行者や自転車などの小目標のミスレートが著しく低下していることが確認された。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - YOLO-SPCI: Enhancing Remote Sensing Object Detection via Selective-Perspective-Class Integration [1.2815904071470707]
YOLO-S PCIは、軽量なSelective-Perspective-Class Integrationモジュールを導入した注目度の高い検出フレームワークである。
YOLO-S PCIは最先端検出器と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-05-27T16:00:34Z) - YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。
YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。
リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文 参考訳(メタデータ) (2025-04-15T13:13:22Z) - A lightweight model FDM-YOLO for small target improvement based on YOLOv8 [0.0]
小さいターゲットは、低いピクセル数、複雑な背景、様々な射撃角度のために検出が困難である。
本稿では,小目標検出に焦点をあて,低計算制約下での物体検出手法について検討する。
論文 参考訳(メタデータ) (2025-03-06T14:06:35Z) - PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。
追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。
本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-23T18:18:15Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。