論文の概要: DETRs Beat YOLOs on Real-time Object Detection
- arxiv url: http://arxiv.org/abs/2304.08069v2
- Date: Thu, 6 Jul 2023 09:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:40:30.664504
- Title: DETRs Beat YOLOs on Real-time Object Detection
- Title(参考訳): DETRはリアルタイム物体検出でYOLOに勝る
- Authors: Wenyu Lv, Yian Zhao, Shangliang Xu, Jinman Wei, Guanzhong Wang, Cheng
Cui, Yuning Du, Qingqing Dang, Yi Liu
- Abstract要約: 非最大抑圧(NMS)による推論遅延を回避するためにRT-DETR(Real-Time Detection TRansformer)を提案する。
具体的には,マルチスケールな特徴を効率よく処理するハイブリッドエンコーダを設計し,イントラスケールインタラクションとクロススケールフュージョンを分離する。
提案する検出器は, 再トレーニングを必要とせず, 異なるデコーダ層を用いることで, 推論速度の柔軟調整を支援する。
- 参考スコア(独自算出の注目度): 2.197746938859857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end transformer-based detectors~(DETRs) have achieved
remarkable performance. However, the issue of the high computational cost of
DETRs has not been effectively addressed, limiting their practical application
and preventing them from fully exploiting the benefits of no post-processing,
such as non-maximum suppression (NMS). In this paper, we first analyze the
influence of NMS in modern real-time object detectors on inference speed, and
establish an end-to-end speed benchmark. To avoid the inference delay caused by
NMS, we propose a Real-Time DEtection TRansformer (RT-DETR), the first
real-time end-to-end object detector to our best knowledge. Specifically, we
design an efficient hybrid encoder to efficiently process multi-scale features
by decoupling the intra-scale interaction and cross-scale fusion, and propose
IoU-aware query selection to improve the initialization of object queries. In
addition, our proposed detector supports flexibly adjustment of the inference
speed by using different decoder layers without the need for retraining, which
facilitates the practical application of real-time object detectors. Our
RT-DETR-L achieves 53.0% AP on COCO val2017 and 114 FPS on T4 GPU, while
RT-DETR-X achieves 54.8% AP and 74 FPS, outperforming all YOLO detectors of the
same scale in both speed and accuracy. Furthermore, our RT-DETR-R50 achieves
53.1% AP and 108 FPS, outperforming DINO-Deformable-DETR-R50 by 2.2% AP in
accuracy and by about 21 times in FPS. ource code and pre-trained models are
available at https://github.com/lyuwenyu/RT-DETR.
- Abstract(参考訳): 近年, エンド・ツー・エンド変圧器型検出器~(DETR)は優れた性能を発揮している。
しかし, DETR の高計算コストの問題は効果的に解決されておらず,実用的利用を制限し,非最大抑圧 (NMS) などの後処理の利点を完全に活用することができない。
本稿では,現代のリアルタイム物体検出器におけるNMSの推論速度への影響を解析し,エンドツーエンドの速度ベンチマークを確立する。
NMSによる推論遅延を回避するため,我々の知る最初のリアルタイム・エンドツーエンド物体検出器であるリアルタイム検出TRansformer (RT-DETR)を提案する。
具体的には,大規模インタラクションとクロススケールフュージョンを分離してマルチスケール特徴を効率的に処理する効率的なハイブリッドエンコーダを設計し,オブジェクトクエリの初期化を改善するためにIoU対応クエリ選択を提案する。
また,提案する検出器は,異なるデコーダ層を用いて,再訓練を必要とせず柔軟に推定速度を調整できるため,実時間物体検出器の実用化が容易である。
RT-DETR-LはCOCO val2017で53.0%AP、T4 GPUで114FPS、RT-DETR-Xは54.8%APと74FPSを達成し、同じスケールのYOLO検出器をスピードと精度で上回っている。
さらに, RT-DETR-R50は53.1%のAPと108のFPSを達成し, DINO-Deformable-DETR-R50の精度は2.2%, FPSの約21倍に向上した。
ourceコードと事前トレーニング済みモデルはhttps://github.com/lyuwenyu/RT-DETR.orgで公開されている。
関連論文リスト
- R-TOSS: A Framework for Real-Time Object Detection using Semi-Structured
Pruning [3.577310844634503]
R-TOSSと呼ばれる新しい半構造化プルーニングフレームワークを導入する。
R-TOSSは最先端のモデルプルーニング技術の欠点を克服する。
論文 参考訳(メタデータ) (2023-03-03T19:26:08Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文 参考訳(メタデータ) (2021-11-29T05:22:46Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - RMOPP: Robust Multi-Objective Post-Processing for Effective Object
Detection [0.0]
RMOPPは統計的に駆動された後処理アルゴリズムであり、精度とリコールの同時最適化を可能にする。
MS-COCOデータセットを用いて、YOLOv2上で魅力的なテストケースを提供する。
論文 参考訳(メタデータ) (2021-02-09T00:02:38Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。