論文の概要: YOLOv12: Attention-Centric Real-Time Object Detectors
- arxiv url: http://arxiv.org/abs/2502.12524v1
- Date: Tue, 18 Feb 2025 04:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:18.497894
- Title: YOLOv12: Attention-Centric Real-Time Object Detectors
- Title(参考訳): YOLOv12: Attention-Centric Real-Time Object Detector
- Authors: Yunjie Tian, Qixiang Ye, David Doermann,
- Abstract要約: 本稿では,従来のCNNをベースとしたYOLOフレームワークであるYOLOv12を提案する。
YOLOv12は、競合速度の精度で、一般的なリアルタイムオブジェクト検出器を全て上回っている。
- 参考スコア(独自算出の注目度): 38.507511985479006
- License:
- Abstract: Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models cannot match the speed of CNN-based models. This paper proposes an attention-centric YOLO framework, namely YOLOv12, that matches the speed of previous CNN-based ones while harnessing the performance benefits of attention mechanisms. YOLOv12 surpasses all popular real-time object detectors in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage extends to other model scales. YOLOv12 also surpasses end-to-end real-time detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the computation and 45% of the parameters. More comparisons are shown in Figure 1.
- Abstract(参考訳): YOLOフレームワークのネットワークアーキテクチャの強化は、長い間重要だったが、モデリング機能において注意機構が優れていることが証明されたにもかかわらず、CNNベースの改善に焦点を当ててきた。
これは、注意に基づくモデルはCNNベースのモデルと一致しないためである。
本稿では,従来のCNNをベースとしたフレームワークであるYOLOv12を提案する。
YOLOv12は、競合速度の精度で、一般的なリアルタイムオブジェクト検出器を全て上回っている。
例えば、YOLOv12-Nは、T4 GPUで1.64msの推論遅延を持つ40.6%のmAPを達成し、同等の速度で2.1%/1.2%のmAPを上回り、高度なYOLOv10-N/YOLOv11-Nを上回っている。
この利点は、他のモデルスケールにも及ぶ。
RT-DETR/RT-DETRv2: YOLOv12-SはRT-DETR-R18/RT-DETR-R18を42%高速化し、計算の36%とパラメータの45%しか使用していない。
さらに比較を図1に示します。
関連論文リスト
- YOLOv12: A Breakdown of the Key Architectural Features [0.5639904484784127]
YOLOv12は、単一ステージのリアルタイム物体検出において重要な進歩である。
最適化されたバックボーン(R-ELAN)、分離可能な7x7の畳み込み、およびFlashAttention駆動のエリアベースアテンションが組み込まれている。
レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-20T17:08:43Z) - What is YOLOv6? A Deep Insight into the Object Detection Model [0.0]
本研究は、YOLOv6オブジェクト検出モデルの詳細に焦点を当てている。
YOLOv6-NはNVIDIA Tesla T4 GPUで1187 FPSで37.5%APを達成した。
YOLOv6-Sは484 FPSで45.0%APに達し、PPYOLOE-S、YOLOv5-S、YOLOX-S、YOLOv8-Sといった同クラスのモデルより優れている。
論文 参考訳(メタデータ) (2024-12-17T15:26:15Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor
Detection [7.798672884591179]
チャネルシャッフル(RCS-YOLO)に基づく新しいYOLOアーキテクチャを提案する。
脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。
提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-07-31T05:38:17Z) - DETRs Beat YOLOs on Real-time Object Detection [5.426236055184119]
YOLOシリーズは、速度と精度のトレードオフにより、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。
近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。
本稿では,初のリアルタイム終端物体検出装置であるリアルタイム検出TRansformer(RT-DETR)を提案する。
論文 参考訳(メタデータ) (2023-04-17T08:30:02Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Workshop on Autonomous Driving at CVPR 2021: Technical Report for
Streaming Perception Challenge [57.647371468876116]
本稿では,現実的な自律運転シナリオのためのリアルタイム2次元物体検出システムについて紹介する。
私たちの検出器は、YOLOXと呼ばれる新しい設計のYOLOモデルで構築されています。
Argoverse-HDデータセットでは,検出のみのトラック/トラックで2位を7.8/6.1上回る41.0ストリーミングAPを達成した。
論文 参考訳(メタデータ) (2021-07-27T06:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。