論文の概要: RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
- arxiv url: http://arxiv.org/abs/2409.08475v1
- Date: Fri, 13 Sep 2024 02:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:07:55.062844
- Title: RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision
- Title(参考訳): RT-DETRv3:階層的高感度正の重ね合わせによる実時間終端物体検出
- Authors: Shuo Wang, Chunlong Xia, Feng Lv, Yifeng Shi,
- Abstract要約: 本稿では,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案する。
本稿では,デコーダ訓練の不十分さに対処するため,自己意図的摂動を含む新たな学習戦略を提案する。
RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 7.721101317599364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RT-DETR is the first real-time end-to-end transformer-based object detector. Its efficiency comes from the framework design and the Hungarian matching. However, compared to dense supervision detectors like the YOLO series, the Hungarian matching provides much sparser supervision, leading to insufficient model training and difficult to achieve optimal results. To address these issues, we proposed a hierarchical dense positive supervision method based on RT-DETR, named RT-DETRv3. Firstly, we introduce a CNN-based auxiliary branch that provides dense supervision that collaborates with the original decoder to enhance the encoder feature representation. Secondly, to address insufficient decoder training, we propose a novel learning strategy involving self-attention perturbation. This strategy diversifies label assignment for positive samples across multiple query groups, thereby enriching positive supervisions. Additionally, we introduce a shared-weight decoder branch for dense positive supervision to ensure more high-quality queries matching each ground truth. Notably, all aforementioned modules are training-only. We conduct extensive experiments to demonstrate the effectiveness of our approach on COCO val2017. RT-DETRv3 significantly outperforms existing real-time detectors, including the RT-DETR series and the YOLO series. For example, RT-DETRv3-R18 achieves 48.1% AP (+1.6%/+1.4%) compared to RT-DETR-R18/RT-DETRv2-R18 while maintaining the same latency. Meanwhile, it requires only half of epochs to attain a comparable performance. Furthermore, RT-DETRv3-R101 can attain an impressive 54.6% AP outperforming YOLOv10-X. Code will be released soon.
- Abstract(参考訳): RT-DETRは、世界初のリアルタイム・エンド・ツー・エンド・トランスフォーマー・オブジェクト検出器である。
その効率性は、フレームワーク設計とハンガリーのマッチングから来ています。
しかし、YOLOシリーズのような密集した監視検出器と比較して、ハンガリーのマッチングはスペーサーの監督を多く提供しており、モデルトレーニングが不十分であり、最適な結果を得るのが困難である。
これらの課題に対処するため,RT-DETRv3というRT-DETRに基づく階層的な正の監督手法を提案した。
まず、元のデコーダと協調してエンコーダの特徴表現を強化する、密集した監視を提供するCNNベースの補助ブランチを紹介する。
第二に、デコーダの訓練が不十分な状況に対処するために、自己注意の摂動を含む新しい学習戦略を提案する。
この戦略は、複数のクエリグループにまたがる正のサンプルに対するラベル割り当てを多様化し、正の監督を強化する。
さらに,より高品質なクエリが各基底真理に一致することを保証するために,密集した正の監督のための共有重み付きデコーダブランチを導入する。
特に、上記のモジュールはすべてトレーニング専用です。
我々はCOCO val2017におけるアプローチの有効性を実証するための広範な実験を行った。
RT-DETRv3は、RT-DETRシリーズやYOLOシリーズなど、既存のリアルタイム検出器よりも大幅に優れている。
例えば、RT-DETRv3-R18は、同じレイテンシを維持しながら、RT-DETR-R18/RT-DETRv2-R18と比較して48.1%AP(+1.6%/+1.4%)を達成した。
一方、同等のパフォーマンスを得るためには、エポックの半分しか必要としない。
さらにRT-DETRv3-R101は54.6%のAPがYOLOv10-Xを上回っている。
コードはまもなくリリースされる。
関連論文リスト
- RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。
柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。
実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文 参考訳(メタデータ) (2024-07-24T10:20:19Z) - DETRs Beat YOLOs on Real-time Object Detection [5.426236055184119]
YOLOシリーズは、速度と精度のトレードオフにより、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。
近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。
本稿では,初のリアルタイム終端物体検出装置であるリアルタイム検出TRansformer(RT-DETR)を提案する。
論文 参考訳(メタデータ) (2023-04-17T08:30:02Z) - Towards End-to-end Semi-supervised Learning for One-stage Object
Detection [88.56917845580594]
本稿では,高度な一段検出ネットワークYOLOv5の半教師付き学習に焦点を当てた。
そこで我々は,Multi-view Pseudo-label Refinement (MPR) とDecoupled Semi-supervised Optimization (DSO) の2つの革新的な設計を取り入れた新しい教師学習レシピOneTeacherを提案する。
特に、MPRは、拡張ビューリファインメントとグローバルビューフィルタリングによって擬似ラベルの品質を改善し、DSOは構造的な微調整とタスク固有の擬似ラベルによる共同最適化競合を処理する。
論文 参考訳(メタデータ) (2023-02-22T11:35:40Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。