Fugu-MT 論文翻訳(概要): DETRs Beat YOLOs on Real-time Object Detection

論文の概要: DETRs Beat YOLOs on Real-time Object Detection

arxiv url: http://arxiv.org/abs/2304.08069v1
Date: Mon, 17 Apr 2023 08:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 16:04:35.365881
Title: DETRs Beat YOLOs on Real-time Object Detection
Title（参考訳）: DETRはリアルタイム物体検出でYOLOに勝る
Authors: Wenyu Lv, Shangliang Xu, Yian Zhao, Guanzhong Wang, Jinman Wei, Cheng Cui, Yuning Du, Qingqing Dang, Yi Liu
Abstract要約: 非最大抑圧(NMS)による推論遅延を回避するためにRT-DETR(Real-Time Detection TRansformer)を提案する。具体的には,マルチスケールな特徴を効率よく処理するハイブリッドエンコーダを設計し,イントラスケールインタラクションとクロススケールフュージョンを分離する。提案する検出器は, 再トレーニングを必要とせず, 異なるデコーダ層を用いることで, 推論速度の柔軟調整を支援する。
参考スコア（独自算出の注目度）: 2.197746938859857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, end-to-end transformer-based detectors (DETRs) have achieved remarkable performance. However, the issue of the high computational cost of DETRs has not been effectively addressed, limiting their practical application and preventing them from fully exploiting the benefits of no post-processing, such as non-maximum suppression (NMS). In this paper, we first analyze the influence of NMS in modern real-time object detectors on inference speed, and establish an end-to-end speed benchmark. To avoid the inference delay caused by NMS, we propose a Real-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge. Specifically, we design an efficient hybrid encoder to efficiently process multi-scale features by decoupling the intra-scale interaction and cross-scale fusion, and propose IoU-aware query selection to improve the initialization of object queries. In addition, our proposed detector supports flexibly adjustment of the inference speed by using different decoder layers without the need for retraining, which facilitates the practical application of real-time object detectors. Our RT-DETR-L achieves 53.0% AP on COCO val2017 and 114 FPS on T4 GPU, while RT-DETR-X achieves 54.8% AP and 74 FPS, outperforming all YOLO detectors of the same scale in both speed and accuracy. Furthermore, our RT-DETR-R50 achieves 53.1% AP and 108 FPS, outperforming DINO-Deformable-DETR-R50 by 2.2% AP in accuracy and by about 21 times in FPS. Source code and pretrained models will be available at PaddleDetection.
Abstract（参考訳）: 近年,end-to-end transformer-based detectors (detrs) が注目されている。しかし, DETR の高計算コストの問題は効果的に解決されておらず,実用的利用を制限し,非最大抑圧 (NMS) などの後処理の利点を完全に活用することができない。本稿では,現代のリアルタイム物体検出器におけるNMSの推論速度への影響を解析し,エンドツーエンドの速度ベンチマークを確立する。 NMSによる推論遅延を回避するため,我々の知る最初のリアルタイム・エンドツーエンド物体検出器であるリアルタイム検出TRansformer (RT-DETR)を提案する。具体的には,大規模インタラクションとクロススケールフュージョンを分離してマルチスケール特徴を効率的に処理する効率的なハイブリッドエンコーダを設計し,オブジェクトクエリの初期化を改善するためにIoU対応クエリ選択を提案する。また,提案する検出器は,異なるデコーダ層を用いて,再訓練を必要とせず柔軟に推定速度を調整できるため,実時間物体検出器の実用化が容易である。 RT-DETR-LはCOCO val2017で53.0%AP、T4 GPUで114FPS、RT-DETR-Xは54.8%APと74FPSを達成し、同じスケールのYOLO検出器をスピードと精度で上回っている。さらに, RT-DETR-R50は53.1%のAPと108のFPSを達成し, DINO-Deformable-DETR-R50の精度は2.2%, FPSの約21倍に向上した。ソースコードと事前訓練されたモデルはPaddleDetectionで利用できる。

関連論文リスト

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design [72.55935017828891]
我々は Le-DETR (textbfLow- Cost and textbfEfficient textbfDEtection textbfTRansformer) を提案する。 ImageNet1KとCOCO 2017トレーニングデータセットのみを使用して、リアルタイム検出で新しいtextbfSOTAを実現する。 YOLOv12-L/X を textbf+0.6/-0.1 mAP で上回り、同様の速度と textbf+20% のスピードアップを実現している。
論文参考訳（メタデータ） (2026-02-24T15:29:55Z)
YOLOv12: Attention-Centric Real-Time Object Detectors [38.507511985479006]
本稿では,従来のCNNをベースとしたYOLOフレームワークであるYOLOv12を提案する。 YOLOv12は、競合速度の精度で、一般的なリアルタイムオブジェクト検出器を全て上回っている。
論文参考訳（メタデータ） (2025-02-18T04:20:14Z)
Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。 RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文参考訳（メタデータ） (2025-02-11T09:54:09Z)
DEIM: DETR with Improved Matching for Fast Convergence [28.24665757155962]
我々は,Transformer-based architectures (DETR) を用いたリアルタイムオブジェクト検出における収束の促進を目的としたトレーニングフレームワークDEIMを紹介する。 DETRモデルにおける1対1(O2O)マッチングに固有のスパース監督を緩和するため、DEIMはDense O2Oマッチング戦略を採用している。 Dense O2Oマッチングはコンバージェンスを高速化する一方、パフォーマンスに影響を与える可能性のある低品質のマッチも多数導入されている。
論文参考訳（メタデータ） (2024-12-05T15:10:13Z)
RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision [7.721101317599364]
本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。 RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
論文参考訳（メタデータ） (2024-09-13T02:02:07Z)
RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文参考訳（メタデータ） (2024-07-24T10:20:19Z)
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文参考訳（メタデータ） (2024-06-05T17:07:24Z)
RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor Detection [7.798672884591179]
チャネルシャッフル(RCS-YOLO)に基づく新しいYOLOアーキテクチャを提案する。脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。
論文参考訳（メタデータ） (2023-07-31T05:38:17Z)
EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文参考訳（メタデータ） (2023-02-15T06:05:14Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)
Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。 REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文参考訳（メタデータ） (2021-12-09T00:29:19Z)
Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文参考訳（メタデータ） (2021-01-19T03:52:44Z)
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文参考訳（メタデータ） (2020-10-21T17:05:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。