Fugu-MT 論文翻訳(概要): DETRs Beat YOLOs on Real-time Object Detection

論文の概要: DETRs Beat YOLOs on Real-time Object Detection

arxiv url: http://arxiv.org/abs/2304.08069v3
Date: Wed, 3 Apr 2024 11:46:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 23:37:29.453046
Title: DETRs Beat YOLOs on Real-time Object Detection
Title（参考訳）: DETRはリアルタイム物体検出でYOLOに勝る
Authors: Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen,
Abstract要約: YOLOシリーズは、速度と精度のトレードオフにより、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。本稿では,初のリアルタイム終端物体検出装置であるリアルタイム検出TRansformer(RT-DETR)を提案する。
参考スコア（独自算出の注目度）: 5.426236055184119
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The YOLO series has become the most popular framework for real-time object detection due to its reasonable trade-off between speed and accuracy. However, we observe that the speed and accuracy of YOLOs are negatively affected by the NMS. Recently, end-to-end Transformer-based detectors (DETRs) have provided an alternative to eliminating NMS. Nevertheless, the high computational cost limits their practicality and hinders them from fully exploiting the advantage of excluding NMS. In this paper, we propose the Real-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge that addresses the above dilemma. We build RT-DETR in two steps, drawing on the advanced DETR: first we focus on maintaining accuracy while improving speed, followed by maintaining speed while improving accuracy. Specifically, we design an efficient hybrid encoder to expeditiously process multi-scale features by decoupling intra-scale interaction and cross-scale fusion to improve speed. Then, we propose the uncertainty-minimal query selection to provide high-quality initial queries to the decoder, thereby improving accuracy. In addition, RT-DETR supports flexible speed tuning by adjusting the number of decoder layers to adapt to various scenarios without retraining. Our RT-DETR-R50 / R101 achieves 53.1% / 54.3% AP on COCO and 108 / 74 FPS on T4 GPU, outperforming previously advanced YOLOs in both speed and accuracy. We also develop scaled RT-DETRs that outperform the lighter YOLO detectors (S and M models). Furthermore, RT-DETR-R50 outperforms DINO-R50 by 2.2% AP in accuracy and about 21 times in FPS. After pre-training with Objects365, RT-DETR-R50 / R101 achieves 55.3% / 56.2% AP. The project page: https://zhao-yian.github.io/RTDETR.
Abstract（参考訳）: YOLOシリーズは、速度と精度の間の合理的なトレードオフのため、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。しかし, YOLOの速度と精度はNMSに負の影響を受けている。近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。それでも高い計算コストは、その実用性を制限し、NMSを除外する利点を完全に活用することを妨げる。本稿では,実時間検出TRansformer(RT-DETR)を提案する。我々はRT-DETRを2つのステップで構築し、先進的なDETRに基づいて、まず、スピードを改善しながら精度を維持することに集中し、その後、スピードを向上し、精度を向上する。具体的には,マルチスケールな特徴を高速に処理するハイブリッドエンコーダを設計する。そして,デコーダに高品質な初期クエリを提供する不確実性最小のクエリ選択を提案し,精度を向上する。さらにRT-DETRは、復調することなく様々なシナリオに適応するようにデコーダ層の数を調整することで、フレキシブルなスピードチューニングをサポートする。我々のRT-DETR-R50 / R101は、COCOで53.1% / 54.3% AP、T4 GPUで108 / 74 FPSを達成し、これまで進歩していたYOLOよりも高速かつ正確である。また、より軽量なYOLO検出器(SモデルとMモデル)よりも優れたスケールRT-DETRを開発した。さらにRT-DETR-R50はDINO-R50よりも精度が2.2%、FPSでは21倍高い。 Objects365で事前トレーニングを行った後、RT-DETR-R50 / R101は55.3% / 56.2%APを達成した。プロジェクトページ: https://zhao-yian.github.io/RTDETR。

関連論文リスト

YOLOv12: Attention-Centric Real-Time Object Detectors [38.507511985479006]
本稿では,従来のCNNをベースとしたYOLOフレームワークであるYOLOv12を提案する。 YOLOv12は、競合速度の精度で、一般的なリアルタイムオブジェクト検出器を全て上回っている。
論文参考訳（メタデータ） (2025-02-18T04:20:14Z)
Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。 RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文参考訳（メタデータ） (2025-02-11T09:54:09Z)
DEIM: DETR with Improved Matching for Fast Convergence [28.24665757155962]
我々は,Transformer-based architectures (DETR) を用いたリアルタイムオブジェクト検出における収束の促進を目的としたトレーニングフレームワークDEIMを紹介する。 DETRモデルにおける1対1(O2O)マッチングに固有のスパース監督を緩和するため、DEIMはDense O2Oマッチング戦略を採用している。 Dense O2Oマッチングはコンバージェンスを高速化する一方、パフォーマンスに影響を与える可能性のある低品質のマッチも多数導入されている。
論文参考訳（メタデータ） (2024-12-05T15:10:13Z)
RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision [7.721101317599364]
本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。 RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
論文参考訳（メタデータ） (2024-09-13T02:02:07Z)
RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文参考訳（メタデータ） (2024-07-24T10:20:19Z)
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文参考訳（メタデータ） (2024-06-05T17:07:24Z)
RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor Detection [7.798672884591179]
チャネルシャッフル(RCS-YOLO)に基づく新しいYOLOアーキテクチャを提案する。脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。
論文参考訳（メタデータ） (2023-07-31T05:38:17Z)
EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文参考訳（メタデータ） (2023-02-15T06:05:14Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)
Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。 REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文参考訳（メタデータ） (2021-12-09T00:29:19Z)
Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文参考訳（メタデータ） (2021-01-19T03:52:44Z)
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文参考訳（メタデータ） (2020-10-21T17:05:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。