論文の概要: DEYOv3: DETR with YOLO for Real-time Object Detection
- arxiv url: http://arxiv.org/abs/2309.11851v1
- Date: Thu, 21 Sep 2023 07:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:32:46.161522
- Title: DEYOv3: DETR with YOLO for Real-time Object Detection
- Title(参考訳): DEYOv3: リアルタイムオブジェクト検出のためのYOLO付きDETR
- Authors: Haodong Ouyang
- Abstract要約: 本稿では,ステップ・バイ・ステップ・トレーニングと呼ばれる新しいトレーニング手法を提案する。
第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
本手法を応用して,DEYOv3と呼ばれる新しいエンドツーエンドの物体検出モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end object detectors have gained significant attention from
the research community due to their outstanding performance. However, DETR
typically relies on supervised pretraining of the backbone on ImageNet, which
limits the practical application of DETR and the design of the backbone,
affecting the model's potential generalization ability. In this paper, we
propose a new training method called step-by-step training. Specifically, in
the first stage, the one-to-many pre-trained YOLO detector is used to
initialize the end-to-end detector. In the second stage, the backbone and
encoder are consistent with the DETR-like model, but only the detector needs to
be trained from scratch. Due to this training method, the object detector does
not need the additional dataset (ImageNet) to train the backbone, which makes
the design of the backbone more flexible and dramatically reduces the training
cost of the detector, which is helpful for the practical application of the
object detector. At the same time, compared with the DETR-like model, the
step-by-step training method can achieve higher accuracy than the traditional
training method of the DETR-like model. With the aid of this novel training
method, we propose a brand-new end-to-end real-time object detection model
called DEYOv3. DEYOv3-N achieves 41.1% on COCO val2017 and 270 FPS on T4 GPU,
while DEYOv3-L achieves 51.3% AP and 102 FPS. Without the use of additional
training data, DEYOv3 surpasses all existing real-time object detectors in
terms of both speed and accuracy. It is worth noting that for models of N, S,
and M scales, the training on the COCO dataset can be completed using a single
24GB RTX3090 GPU.
- Abstract(参考訳): 近年、エンド・ツー・エンドの物体検出器は、その優れた性能のために研究コミュニティから大きな注目を集めている。
しかし、DETRは一般的にImageNet上のバックボーンの教師付き事前トレーニングに依存しており、これはDETRの実用的応用とバックボーンの設計を制限し、モデルの潜在的な一般化能力に影響を与える。
本稿では,ステップバイステップトレーニングと呼ばれる新しいトレーニング手法を提案する。
特に第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
このトレーニング方法により、オブジェクト検出器はバックボーンをトレーニングするために追加のデータセット(imagenet)を必要としないため、バックボーンの設計をより柔軟にし、オブジェクト検出器の実用化に役立つ検出器のトレーニングコストを劇的に削減できる。
また,detrライクモデルと比較して,従来のdetrライクモデルのトレーニング法よりも高い精度を実現することができた。
本稿では,この新しいトレーニング手法を用いて,deyov3と呼ばれる新しいエンドツーエンドオブジェクト検出モデルを提案する。
DEYOv3-NはCOCO val2017で41.1%、T4 GPUで270 FPS、DEYOv3-Lは51.3%APと102 FPSを達成した。
追加のトレーニングデータを使わずに、DEYOv3は速度と精度の両方で既存のリアルタイムオブジェクト検出器を超越している。
なお、N、S、Mスケールのモデルでは、COCOデータセットのトレーニングは単一の24GB RTX3090 GPUを使用して完了する。
関連論文リスト
- Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T15:21:57Z) - DEYO: DETR with YOLO for End-to-End Object Detection [0.0]
純粋な畳み込み構造エンコーダであるDETRとYOLO(DEYO)を併用した初のリアルタイムエンドツーエンドオブジェクト検出モデルを提案する。
トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。
トレーニングの第2段階では,エンド・ツー・エンド検出器の背骨と頸部を凍結し,デコーダのトレーニングをスクラッチから行う必要がある。
論文 参考訳(メタデータ) (2024-02-26T07:48:19Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - YOLOBench: Benchmarking Efficient Object Detectors on Embedded Systems [0.0873811641236639]
4つの異なるデータセットと4つの異なる組込みハードウェアプラットフォーム上で、550以上のYOLOベースのオブジェクト検出モデルからなるベンチマークであるYOLOBenchを提案する。
我々は,これらの検出器と固定訓練環境との公正かつ制御された比較を行うことにより,様々なモデルスケールのYOLOベースの1段検出器の精度と遅延数を収集する。
我々は、YOLOBenchのニューラルネットワーク探索で使用されるトレーニング不要な精度推定器を評価し、最先端のゼロコスト精度推定器はMACカウントのような単純なベースラインよりも優れており、その一部は効果的に使用できることを示した。
論文 参考訳(メタデータ) (2023-07-26T01:51:10Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - MonoPCNS: Monocular 3D Object Detection via Point Cloud Network
Simulation [16.237400933896886]
既存の先行手法では、まず入力画像の深さを推定し、点雲に基づいて3Dオブジェクトを検出する傾向にある。
トレーニング期間中に単分子検出器のための点雲検出器の特徴学習挙動をシミュレートするためにMonoPCNSを提案する。
本手法は,ネットワークアーキテクチャの変更を伴わずに,各単分子検出器の性能を常に改善する。
論文 参考訳(メタデータ) (2022-08-19T16:57:11Z) - Delving into the Pre-training Paradigm of Monocular 3D Object Detection [10.07932482761621]
単分子3次元物体検出(M3OD)のための事前学習パラダイムについて検討する。
本稿では,このベースラインをさらに改善するためのいくつかの戦略を提案する。主に,目標とする半深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整などである。
開発したすべての技術を組み合わせることで、得られた事前学習フレームワークは、KITTI-3DおよびnuScenesベンチマーク上でM3OD性能を大幅に向上させる事前学習されたバックボーンを生成する。
論文 参考訳(メタデータ) (2022-06-08T03:01:13Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。