論文の概要: Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models
- arxiv url: http://arxiv.org/abs/2606.03748v1
- Date: Tue, 02 Jun 2026 15:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.093852
- Title: Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models
- Title(参考訳): Ultralytics YOLO26:Unified Real-Time End-to-End Vision Models
- Authors: Glenn Jocher, Jing Qiu, Mengyu Liu, Shuai Lyu, Fatih Cagatay Akyon, Muhammet Esat Kalfaoglu,
- Abstract要約: YOLO検出器は依然として推論時の非最大抑制に依存しており、Focal Distribution Lossによる重い検出ヘッドを持ち、正のラベルを割り当てることなく最小の物体を残すことができる。
我々は,これらの制約に対処する統合リアルタイムビジョンモデルファミリーであるUltralytics YOLO26を提案する。
- 参考スコア(独自算出の注目度): 6.526886874917011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time vision demands models that are accurate, efficient, and simple to deploy across diverse hardware. The YOLO family has become widely deployed for this reason, yet most YOLO detectors still rely on non-maximum suppression at inference, carry heavy detection heads due to Distribution Focal Loss, require long training schedules, and can leave the smallest objects without positive label assignments. We present Ultralytics YOLO26, a unified real-time vision model family that addresses these limitations through coordinated architecture and training advances. YOLO26 uses a dual-head design for native NMS-free end-to-end inference and removes DFL entirely, yielding a lighter head with unconstrained regression range. Its training pipeline combines MuSGD, a hybrid Muon-SGD optimizer adapted from large language model training; Progressive Loss, which shifts supervision toward the inference-time head; and STAL, a label assignment strategy that guarantees positive coverage for small objects. Beyond detection, YOLO26 introduces task-specific head and loss designs for instance segmentation, pose estimation, and oriented detection, producing consistent gains across tasks and scales. The family spans five scales (n/s/m/l/x) and supports detection, instance segmentation, pose estimation, classification, and oriented detection in a single pipeline, with an open-vocabulary extension, YOLOE-26, for text-, visual-, and prompt-free inference. Across all scales, YOLO26 achieves 40.9-57.5 mAP on COCO at 1.7-11.8 ms T4 TensorRT latency, advancing the accuracy-latency Pareto front over prior real-time detectors, while YOLOE-26x reaches 40.6 AP on LVIS minival under text prompting. Code and models are available at https://github.com/ultralytics/ultralytics.
- Abstract(参考訳): リアルタイムビジョンは、さまざまなハードウェアにまたがる、正確で効率的で、デプロイが容易なモデルを必要とする。
そのため、YOLOファミリーは広く展開されているが、ほとんどのYOLO検出器は推論時の非最大抑制に依存しており、分散焦点損失による重い検出ヘッドを持ち、長いトレーニングスケジュールを必要とし、ラベルの割り当てなしに最小のオブジェクトを残すことができる。
我々は,これらの制約に対処する統合リアルタイムビジョンモデルファミリーであるUltralytics YOLO26を提案する。
YOLO26はNMSのないネイティブなエンドツーエンド推論のためにデュアルヘッド設計を採用し、DFLを完全に取り除き、制約のない回帰範囲を持つ軽量なヘッドを提供する。
トレーニングパイプラインには、大規模な言語モデルのトレーニングに適応したMuon-SGD最適化ツールであるMuSGD、推論時のヘッドに監督をシフトするProgressive Loss、小さなオブジェクトに対して肯定的なカバレッジを保証するラベル割り当て戦略であるSTALが組み込まれている。
YOLO26は、検出以外にも、インスタンスセグメンテーション、ポーズ推定、方向検出のためのタスク固有のヘッドとロスの設計を導入し、タスクとスケールの一貫性のあるゲインを生み出している。
このファミリーは5つのスケール(n/s/m/l/x)にまたがり、単一のパイプラインで検出、インスタンスのセグメンテーション、ポーズ推定、分類、方向検出をサポートする。
全スケールにわたって、YOLO26はCOCO上の1.7-11.8ms T4TensorRTレイテンシで40.9-57.5mAPを達成し、従来のリアルタイム検出器よりも精度の高いParetoを前進させ、YOLOE-26xはテキストプロンプトの下でLVISミニバル上で40.6 APに達する。
コードとモデルはhttps://github.com/ultralytics/ultralyticsで入手できる。
関連論文リスト
- Multiscale Real-Time Object Detection in the NMS-Free Era: A Comparative Performance Evaluation of YOLOv8 and YOLO26 [0.0]
非最大抑圧(NMS)は、多くのリアルタイムオブジェクト検出パイプラインにおいて重要な後処理ステップである。
YOLO26のような最近のNMSのない設計は、エンドツーエンド検出によってこの依存を減らすことを目的としている。
本稿では,Pascal VOCとVisDroneのYOLOv8とYOLO26を比較した。
論文 参考訳(メタデータ) (2026-05-24T02:55:33Z) - Ultralytics YOLO Evolution: An Overview of YOLO26, YOLO11, YOLOv8 and YOLOv5 Object Detectors for Computer Vision and Pattern Recognition [3.2882817259131403]
本稿では、対象検出器のUltralytics YOLO(You Only Look Once)ファミリーについて概観する。
レビューは、最新のリリースであるYOLO26(またはYOLOv26)から始まる。
本論文は,密接なシーン制限,ハイブリッドCNN-Transformer統合,オープン語彙検出,エッジ認識トレーニングアプローチなど,課題と今後の方向性を明らかにする。
論文 参考訳(メタデータ) (2025-10-06T23:28:44Z) - YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection [3.1957907449739764]
本研究は, リアルタイムオブジェクト検出のためのアーキテクチャ拡張と性能ベンチマークについて, Ultralytics YOLO26の包括的解析を行った。
2025年9月にリリースされたYOLO26は、エッジおよび低消費電力デバイスに効率性、正確性、デプロイメントの準備ができているYOLOファミリーの最新のかつ最も先進的なメンバーである。
論文 参考訳(メタデータ) (2025-09-29T17:58:04Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。