論文の概要: DETRs Beat YOLOs on Real-time Object Detection
- arxiv url: http://arxiv.org/abs/2304.08069v2
- Date: Thu, 6 Jul 2023 09:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:40:30.664504
- Title: DETRs Beat YOLOs on Real-time Object Detection
- Title(参考訳): DETRはリアルタイム物体検出でYOLOに勝る
- Authors: Wenyu Lv, Yian Zhao, Shangliang Xu, Jinman Wei, Guanzhong Wang, Cheng
Cui, Yuning Du, Qingqing Dang, Yi Liu
- Abstract要約: 非最大抑圧(NMS)による推論遅延を回避するためにRT-DETR(Real-Time Detection TRansformer)を提案する。
具体的には,マルチスケールな特徴を効率よく処理するハイブリッドエンコーダを設計し,イントラスケールインタラクションとクロススケールフュージョンを分離する。
提案する検出器は, 再トレーニングを必要とせず, 異なるデコーダ層を用いることで, 推論速度の柔軟調整を支援する。
- 参考スコア(独自算出の注目度): 2.197746938859857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end transformer-based detectors~(DETRs) have achieved
remarkable performance. However, the issue of the high computational cost of
DETRs has not been effectively addressed, limiting their practical application
and preventing them from fully exploiting the benefits of no post-processing,
such as non-maximum suppression (NMS). In this paper, we first analyze the
influence of NMS in modern real-time object detectors on inference speed, and
establish an end-to-end speed benchmark. To avoid the inference delay caused by
NMS, we propose a Real-Time DEtection TRansformer (RT-DETR), the first
real-time end-to-end object detector to our best knowledge. Specifically, we
design an efficient hybrid encoder to efficiently process multi-scale features
by decoupling the intra-scale interaction and cross-scale fusion, and propose
IoU-aware query selection to improve the initialization of object queries. In
addition, our proposed detector supports flexibly adjustment of the inference
speed by using different decoder layers without the need for retraining, which
facilitates the practical application of real-time object detectors. Our
RT-DETR-L achieves 53.0% AP on COCO val2017 and 114 FPS on T4 GPU, while
RT-DETR-X achieves 54.8% AP and 74 FPS, outperforming all YOLO detectors of the
same scale in both speed and accuracy. Furthermore, our RT-DETR-R50 achieves
53.1% AP and 108 FPS, outperforming DINO-Deformable-DETR-R50 by 2.2% AP in
accuracy and by about 21 times in FPS. ource code and pre-trained models are
available at https://github.com/lyuwenyu/RT-DETR.
- Abstract(参考訳): 近年, エンド・ツー・エンド変圧器型検出器~(DETR)は優れた性能を発揮している。
しかし, DETR の高計算コストの問題は効果的に解決されておらず,実用的利用を制限し,非最大抑圧 (NMS) などの後処理の利点を完全に活用することができない。
本稿では,現代のリアルタイム物体検出器におけるNMSの推論速度への影響を解析し,エンドツーエンドの速度ベンチマークを確立する。
NMSによる推論遅延を回避するため,我々の知る最初のリアルタイム・エンドツーエンド物体検出器であるリアルタイム検出TRansformer (RT-DETR)を提案する。
具体的には,大規模インタラクションとクロススケールフュージョンを分離してマルチスケール特徴を効率的に処理する効率的なハイブリッドエンコーダを設計し,オブジェクトクエリの初期化を改善するためにIoU対応クエリ選択を提案する。
また,提案する検出器は,異なるデコーダ層を用いて,再訓練を必要とせず柔軟に推定速度を調整できるため,実時間物体検出器の実用化が容易である。
RT-DETR-LはCOCO val2017で53.0%AP、T4 GPUで114FPS、RT-DETR-Xは54.8%APと74FPSを達成し、同じスケールのYOLO検出器をスピードと精度で上回っている。
さらに, RT-DETR-R50は53.1%のAPと108のFPSを達成し, DINO-Deformable-DETR-R50の精度は2.2%, FPSの約21倍に向上した。
ourceコードと事前トレーニング済みモデルはhttps://github.com/lyuwenyu/RT-DETR.orgで公開されている。
関連論文リスト
- RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision [7.721101317599364]
本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。
本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。
RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-09-13T02:02:07Z) - RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。
柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。
実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文 参考訳(メタデータ) (2024-07-24T10:20:19Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor
Detection [7.798672884591179]
チャネルシャッフル(RCS-YOLO)に基づく新しいYOLOアーキテクチャを提案する。
脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。
提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-07-31T05:38:17Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。