論文の概要: DETRs Beat YOLOs on Real-time Object Detection
- arxiv url: http://arxiv.org/abs/2304.08069v3
- Date: Wed, 3 Apr 2024 11:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:37:29.453046
- Title: DETRs Beat YOLOs on Real-time Object Detection
- Title(参考訳): DETRはリアルタイム物体検出でYOLOに勝る
- Authors: Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen,
- Abstract要約: YOLOシリーズは、速度と精度のトレードオフにより、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。
近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。
本稿では,初のリアルタイム終端物体検出装置であるリアルタイム検出TRansformer(RT-DETR)を提案する。
- 参考スコア(独自算出の注目度): 5.426236055184119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The YOLO series has become the most popular framework for real-time object detection due to its reasonable trade-off between speed and accuracy. However, we observe that the speed and accuracy of YOLOs are negatively affected by the NMS. Recently, end-to-end Transformer-based detectors (DETRs) have provided an alternative to eliminating NMS. Nevertheless, the high computational cost limits their practicality and hinders them from fully exploiting the advantage of excluding NMS. In this paper, we propose the Real-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge that addresses the above dilemma. We build RT-DETR in two steps, drawing on the advanced DETR: first we focus on maintaining accuracy while improving speed, followed by maintaining speed while improving accuracy. Specifically, we design an efficient hybrid encoder to expeditiously process multi-scale features by decoupling intra-scale interaction and cross-scale fusion to improve speed. Then, we propose the uncertainty-minimal query selection to provide high-quality initial queries to the decoder, thereby improving accuracy. In addition, RT-DETR supports flexible speed tuning by adjusting the number of decoder layers to adapt to various scenarios without retraining. Our RT-DETR-R50 / R101 achieves 53.1% / 54.3% AP on COCO and 108 / 74 FPS on T4 GPU, outperforming previously advanced YOLOs in both speed and accuracy. We also develop scaled RT-DETRs that outperform the lighter YOLO detectors (S and M models). Furthermore, RT-DETR-R50 outperforms DINO-R50 by 2.2% AP in accuracy and about 21 times in FPS. After pre-training with Objects365, RT-DETR-R50 / R101 achieves 55.3% / 56.2% AP. The project page: https://zhao-yian.github.io/RTDETR.
- Abstract(参考訳): YOLOシリーズは、速度と精度の間の合理的なトレードオフのため、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。
しかし, YOLOの速度と精度はNMSに負の影響を受けている。
近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。
それでも高い計算コストは、その実用性を制限し、NMSを除外する利点を完全に活用することを妨げる。
本稿では,実時間検出TRansformer(RT-DETR)を提案する。
我々はRT-DETRを2つのステップで構築し、先進的なDETRに基づいて、まず、スピードを改善しながら精度を維持することに集中し、その後、スピードを向上し、精度を向上する。
具体的には,マルチスケールな特徴を高速に処理するハイブリッドエンコーダを設計する。
そして,デコーダに高品質な初期クエリを提供する不確実性最小のクエリ選択を提案し,精度を向上する。
さらにRT-DETRは、復調することなく様々なシナリオに適応するようにデコーダ層の数を調整することで、フレキシブルなスピードチューニングをサポートする。
我々のRT-DETR-R50 / R101は、COCOで53.1% / 54.3% AP、T4 GPUで108 / 74 FPSを達成し、これまで進歩していたYOLOよりも高速かつ正確である。
また、より軽量なYOLO検出器(SモデルとMモデル)よりも優れたスケールRT-DETRを開発した。
さらにRT-DETR-R50はDINO-R50よりも精度が2.2%、FPSでは21倍高い。
Objects365で事前トレーニングを行った後、RT-DETR-R50 / R101は55.3% / 56.2%APを達成した。
プロジェクトページ: https://zhao-yian.github.io/RTDETR。
関連論文リスト
- RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor
Detection [7.798672884591179]
チャネルシャッフル(RCS-YOLO)に基づく新しいYOLOアーキテクチャを提案する。
脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。
提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-07-31T05:38:17Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - SuperYOLO: Super Resolution Assisted Object Detection in Multimodal
Remote Sensing Imagery [36.216230299131404]
マルチモーダルデータを融合し,マルチスケールオブジェクトに対して高分解能(HR)オブジェクト検出を行うSuperYOLOを提案する。
提案モデルでは,最先端モデルと比較して,精度と速度のトレードオフが良好である。
論文 参考訳(メタデータ) (2022-09-27T12:58:58Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z) - FRDet: Balanced and Lightweight Object Detector based on Fire-Residual
Modules for Embedded Processor of Autonomous Driving [0.0]
本稿では, 精度, モデルサイズ, リアルタイム処理の制約をすべて満たすために, バランスのとれた軽量一段物体検出器を提案する。
我々のネットワークは、YOLOv3の精度を達成または超えながら、モデルの圧縮を最大化することを目的としている。
論文 参考訳(メタデータ) (2020-11-16T16:15:43Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。