論文の概要: YOLO-APD: Enhancing YOLOv8 for Robust Pedestrian Detection on Complex Road Geometries
- arxiv url: http://arxiv.org/abs/2507.05376v1
- Date: Mon, 07 Jul 2025 18:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.288036
- Title: YOLO-APD: Enhancing YOLOv8 for Robust Pedestrian Detection on Complex Road Geometries
- Title(参考訳): YOLO-APD:複雑な道路測地におけるロバスト歩行者検出のためのYOLOv8の強化
- Authors: Aquino Joctum, John Kandiri,
- Abstract要約: 本稿では,この課題に特化してYOLOv8フレームワークを改良した新しいディープラーニングアーキテクチャであるYOLO-APDを紹介する。
YOLO-APDは最先端の精度を達成し、77.7% mAP@0.5:0.95、例外的な歩行者リコールは96%を超えた。
リアルタイム処理能力を100 FPSで維持し、精度と効率のバランスが優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicle perception systems require robust pedestrian detection, particularly on geometrically complex roadways like Type-S curved surfaces, where standard RGB camera-based methods face limitations. This paper introduces YOLO-APD, a novel deep learning architecture enhancing the YOLOv8 framework specifically for this challenge. YOLO-APD integrates several key architectural modifications: a parameter-free SimAM attention mechanism, computationally efficient C3Ghost modules, a novel SimSPPF module for enhanced multi-scale feature pooling, the Mish activation function for improved optimization, and an Intelligent Gather & Distribute (IGD) module for superior feature fusion in the network's neck. The concept of leveraging vehicle steering dynamics for adaptive region-of-interest processing is also presented. Comprehensive evaluations on a custom CARLA dataset simulating complex scenarios demonstrate that YOLO-APD achieves state-of-the-art detection accuracy, reaching 77.7% mAP@0.5:0.95 and exceptional pedestrian recall exceeding 96%, significantly outperforming baseline models, including YOLOv8. Furthermore, it maintains real-time processing capabilities at 100 FPS, showcasing a superior balance between accuracy and efficiency. Ablation studies validate the synergistic contribution of each integrated component. Evaluation on the KITTI dataset confirms the architecture's potential while highlighting the need for domain adaptation. This research advances the development of highly accurate, efficient, and adaptable perception systems based on cost-effective sensors, contributing to enhanced safety and reliability for autonomous navigation in challenging, less-structured driving environments.
- Abstract(参考訳): 自動運転車の認識システムは、特に標準的なRGBカメラベースの手法が限界に直面しているType-S曲面のような幾何学的に複雑な道路において、堅牢な歩行者検出を必要とする。
本稿では,この課題に特化してYOLOv8フレームワークを改良した新しいディープラーニングアーキテクチャであるYOLO-APDを紹介する。
YOLO-APDはパラメータフリーのSimAMアテンション機構、計算効率のよいC3Ghostモジュール、マルチスケール機能プーリングのための新しいSimSPPFモジュール、最適化のためのMishアクティベーション機能、ネットワークのネックに優れた機能融合のためのIntelligent Gather & Distribute (IGD)モジュールなど、いくつかの重要なアーキテクチャ変更を統合している。
また, 車両ステアリングのダイナミックスを応用した適応領域処理の概念についても述べる。
複雑なシナリオをシミュレートしたカスタムCARLAデータセットに関する総合的な評価は、YOLO-APDが最先端検出精度を77.7%のmAP@0.5:0.95に達し、例外的な歩行者リコールが96%を超え、YOLOv8を含むベースラインモデルよりも大幅に優れていることを示している。
さらに、100FPSのリアルタイム処理能力を維持しており、精度と効率のバランスが優れている。
アブレーション研究は、各統合成分の相乗的寄与を検証する。
KITTIデータセットの評価は、ドメイン適応の必要性を強調しながら、アーキテクチャの可能性を確認する。
この研究は、コスト効率の高いセンサーに基づく高精度で効率的で適応可能な認識システムの開発を推進し、困難で構造が低い運転環境における自律走行の安全性と信頼性の向上に寄与する。
関連論文リスト
- YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception [44.76134548023668]
高精度で軽量な物体検出器YOLOv13を提案する。
ハイパーグラフに基づく適応相関強化(HyperACE)機構を提案する。
また,FullPAD(Full-Pipeline Aggregation-and-Distribution)パラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-21T15:15:03Z) - YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-Branch Feature Interaction [45.79993863157494]
YOLO-LLTSは、低照度環境向けに設計されたエンドツーエンドのリアルタイム信号検出アルゴリズムである。
YOLO-LLTSは、HRFM-SOD(High-Resolution Feature Map for Small Object Detection)、MFIA(Multi-branch Feature Interaction Attention)、PGFE(Presideed-Guided Feature Enhancement Module)の3つの主要なコントリビューションを紹介している。
実験の結果、YOLO-LLTSは最新技術の性能を達成し、TT100K-nightでは2.7% mAP50:95と1.6% mAP50:95よりも優れていた。
論文 参考訳(メタデータ) (2025-03-18T04:28:05Z) - A Light Perspective for 3D Object Detection [46.23578780480946]
本稿では,最先端のDeep Learning技術を特徴抽出に取り入れた新しい手法を提案する。
私たちのモデルであるNextBEVは、ResNet50やMobileNetV3といった既存の機能抽出ツールを超えています。
これらの軽量な提案を融合することにより、VoxelNetベースのモデルの精度を2.93%向上し、PointPillarベースのモデルのF1スコアを約20%改善しました。
論文 参考訳(メタデータ) (2025-03-10T10:03:23Z) - YOLOv12: A Breakdown of the Key Architectural Features [0.5639904484784127]
YOLOv12は、単一ステージのリアルタイム物体検出において重要な進歩である。
最適化されたバックボーン(R-ELAN)、分離可能な7x7の畳み込み、およびFlashAttention駆動のエリアベースアテンションが組み込まれている。
レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-20T17:08:43Z) - Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。
主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文 参考訳(メタデータ) (2025-02-11T09:54:09Z) - What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - YOLO9tr: A Lightweight Model for Pavement Damage Detection Utilizing a Generalized Efficient Layer Aggregation Network and Attention Mechanism [0.0]
本稿では,舗装損傷検出のための軽量物体検出モデルYOLO9trを提案する。
YOLO9trはYOLOv9アーキテクチャに基づいており、機能抽出とアテンション機構を強化する部分的なアテンションブロックを備えている。
このモデルは、最大136FPSのフレームレートを実現し、ビデオ監視や自動検査システムなどのリアルタイムアプリケーションに適合する。
論文 参考訳(メタデータ) (2024-06-17T06:31:43Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。