論文の概要: YOLOv12: A Breakdown of the Key Architectural Features
- arxiv url: http://arxiv.org/abs/2502.14740v1
- Date: Thu, 20 Feb 2025 17:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 22:18:11.761935
- Title: YOLOv12: A Breakdown of the Key Architectural Features
- Title(参考訳): YOLOv12: 重要なアーキテクチャ機能のブレークダウン
- Authors: Mujadded Al Rabbani Alif, Muhammad Hussain,
- Abstract要約: YOLOv12は、単一ステージのリアルタイム物体検出において重要な進歩である。
最適化されたバックボーン(R-ELAN)、分離可能な7x7の畳み込み、およびFlashAttention駆動のエリアベースアテンションが組み込まれている。
レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.5639904484784127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an architectural analysis of YOLOv12, a significant advancement in single-stage, real-time object detection building upon the strengths of its predecessors while introducing key improvements. The model incorporates an optimised backbone (R-ELAN), 7x7 separable convolutions, and FlashAttention-driven area-based attention, improving feature extraction, enhanced efficiency, and robust detections. With multiple model variants, similar to its predecessors, YOLOv12 offers scalable solutions for both latency-sensitive and high-accuracy applications. Experimental results manifest consistent gains in mean average precision (mAP) and inference speed, making YOLOv12 a compelling choice for applications in autonomous systems, security, and real-time analytics. By achieving an optimal balance between computational efficiency and performance, YOLOv12 sets a new benchmark for real-time computer vision, facilitating deployment across diverse hardware platforms, from edge devices to high-performance clusters.
- Abstract(参考訳): 本稿では, YOLOv12のアーキテクチャ解析について述べる。
このモデルには最適化されたバックボーン(R-ELAN)、7x7の分離可能な畳み込み、FlashAtttention駆動のエリアベースアテンション、特徴抽出の改善、効率の向上、堅牢な検出が含まれている。
YOLOv12は、以前のモデルと同様、複数のモデルバリエーションがあり、レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
実験の結果、平均平均精度(mAP)と推論速度が一貫した向上を示し、YOLOv12は自律システム、セキュリティ、リアルタイム分析におけるアプリケーションにとって魅力的な選択肢となっている。
計算効率とパフォーマンスの最適バランスを達成することで、YOLOv12は、エッジデバイスからハイパフォーマンスクラスタに至るまで、さまざまなハードウェアプラットフォームへのデプロイを容易にする、リアルタイムコンピュータビジョンのための新しいベンチマークを設定する。
関連論文リスト
- A Review of YOLOv12: Attention-Based Enhancements vs. Previous Versions [0.5639904484784127]
YOLOv12は、リアルタイムのパフォーマンスを維持しながら注意ベースの拡張をうまく組み込む、新しいアプローチを導入している。
本稿では、計算効率のよい自己注意領域を含む、YOLOv12のアーキテクチャ革新を包括的にレビューする。
従来のYOLOバージョンと競合するオブジェクト検出器に対してYOLOv12をベンチマークし、精度、推論速度、計算効率の改善点を分析した。
論文 参考訳(メタデータ) (2025-04-16T11:40:55Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions [0.0]
本研究は, YOLOv3から最新のYOLOv12への包括的実験評価である。
考慮すべき課題は、さまざまなオブジェクトサイズ、多様なアスペクト比、単一クラスの小さなオブジェクトである。
分析では各YOLOバージョンの特徴的長所と短所を強調した。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - YOLOv11: An Overview of the Key Architectural Enhancements [0.5639904484784127]
本稿では、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、オブジェクト指向オブジェクト検出(OBB)など、さまざまなコンピュータビジョンタスクにまたがるYOLOv11の拡張機能について検討する。
本稿では,パラメータ数と精度のトレードオフに着目し,平均精度(mAP)と計算効率の両面からモデルの性能改善を概観する。
我々の研究は、オブジェクト検出の広い視野におけるYOLOv11の位置と、リアルタイムコンピュータビジョンアプリケーションに対する潜在的な影響についての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-23T09:55:22Z) - What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision [0.6662800021628277]
本稿では、YOLOv5, YOLOv8, YOLOv10に着目し、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進化に焦点を当てた。
これらのバージョンにまたがるエッジデプロイメントのアーキテクチャの進歩、パフォーマンスの改善、適合性を分析します。
論文 参考訳(メタデータ) (2024-07-03T10:40:20Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。