論文の概要: DEYO: DETR with YOLO for End-to-End Object Detection
- arxiv url: http://arxiv.org/abs/2402.16370v1
- Date: Mon, 26 Feb 2024 07:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:16:50.754420
- Title: DEYO: DETR with YOLO for End-to-End Object Detection
- Title(参考訳): deyo: エンドツーエンドオブジェクト検出にyoloを併用したdetr
- Authors: Haodong Ouyang
- Abstract要約: 純粋な畳み込み構造エンコーダであるDETRとYOLO(DEYO)を併用した初のリアルタイムエンドツーエンドオブジェクト検出モデルを提案する。
トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。
トレーニングの第2段階では,エンド・ツー・エンド検出器の背骨と頸部を凍結し,デコーダのトレーニングをスクラッチから行う必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training paradigm of DETRs is heavily contingent upon pre-training their
backbone on the ImageNet dataset. However, the limited supervisory signals
provided by the image classification task and one-to-one matching strategy
result in an inadequately pre-trained neck for DETRs. Additionally, the
instability of matching in the early stages of training engenders
inconsistencies in the optimization objectives of DETRs. To address these
issues, we have devised an innovative training methodology termed step-by-step
training. Specifically, in the first stage of training, we employ a classic
detector, pre-trained with a one-to-many matching strategy, to initialize the
backbone and neck of the end-to-end detector. In the second stage of training,
we froze the backbone and neck of the end-to-end detector, necessitating the
training of the decoder from scratch. Through the application of step-by-step
training, we have introduced the first real-time end-to-end object detection
model that utilizes a purely convolutional structure encoder, DETR with YOLO
(DEYO). Without reliance on any supplementary training data, DEYO surpasses all
existing real-time object detectors in both speed and accuracy. Moreover, the
comprehensive DEYO series can complete its second-phase training on the COCO
dataset using a single 8GB RTX 4060 GPU, significantly reducing the training
expenditure. Source code and pre-trained models are available at
https://github.com/ouyanghaodong/DEYO.
- Abstract(参考訳): DETRのトレーニングパラダイムは、ImageNetデータセットでバックボーンの事前トレーニングに大きく関わっている。
しかし、画像分類タスクと1対1のマッチング戦略によって提供される限られた監視信号は、DETRに対して不十分に事前訓練されたネックとなる。
さらに、トレーニングの初期におけるマッチングの不安定さは、DETRの最適化目標における矛盾を生じさせる。
これらの課題に対処するため、我々はステップバイステップトレーニングと呼ばれる革新的なトレーニング方法論を考案した。
具体的には、トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。
トレーニングの第2段階では、エンドツーエンド検出器のバックボーンとネックを凍らせ、デコーダのトレーニングをスクラッチから必要とします。
ステップバイステップトレーニングの適用により,純粋に畳み込み構造エンコーダであるdetrとyolo(deyo)を用いた,最初のリアルタイムエンドツーエンドオブジェクト検出モデルを導入した。
補助訓練データに頼らずに、DEYOは既存のリアルタイム物体検出装置をスピードと精度の両方で上回っている。
さらに、包括的なDEYOシリーズは、単一の8GB RTX 4060 GPUを使用してCOCOデータセットの第2フェーズのトレーニングを完了し、トレーニング費を大幅に削減することができる。
ソースコードと事前訓練されたモデルはhttps://github.com/ouyanghaodong/DEYO.comで入手できる。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - DEYOv3: DETR with YOLO for Real-time Object Detection [0.0]
ステップ・バイ・ステップ・トレーニング(Step-by-step training)と呼ばれる新しいトレーニング手法を提案する。
第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
論文 参考訳(メタデータ) (2023-09-21T07:49:07Z) - AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文 参考訳(メタデータ) (2023-07-20T17:55:14Z) - Focusing on what to decode and what to train: Efficient Training with
HOI Split Decoders and Specific Target Guided DeNoising [17.268302302974607]
近年の1段変圧器を用いた手法は,DETRの検出を利用して,人物体間相互作用検出(HOI)タスクにおいて顕著な利得を達成している。
対象デコーダ,オブジェクトデコーダ,動詞デコーダで構成される新しいワンステージフレームワーク(SOV)を提案する。
本稿では,学習可能なオブジェクトと動詞ラベルの埋め込みを活用して学習指導を指導し,学習の収束を加速する,特定目標指導(STG)訓練戦略を提案する。
論文 参考訳(メタデータ) (2023-07-05T13:42:31Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - DETReg: Unsupervised Pretraining with Region Priors for Object Detection [103.93533951746612]
DETRegは、オブジェクト検出ネットワーク全体を事前トレーニングする、新しい自己教師型メソッドである。
事前トレーニング中、DETRegはオブジェクトのローカライゼーションを予測し、教師なしのリージョン提案ジェネレータからのローカライゼーションにマッチする。
対応する機能埋め込みと、自己教師付きイメージエンコーダからの埋め込みを同時に調整する。
論文 参考訳(メタデータ) (2021-06-08T17:39:14Z) - UP-DETR: Unsupervised Pre-training for Object Detection with
Transformers [11.251593386108189]
教師なし事前学習型DETR(UP-DETR)におけるランダムクエリパッチ検出という新しいプレテキストタスクを提案する。
具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。
UP-DETRは、より高速な収束とオブジェクト検出、ワンショット検出、パノプティックセグメンテーションにおける平均精度でDETRの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-18T05:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。