論文の概要: DEYO: DETR with YOLO for Step-by-Step Object Detection
- arxiv url: http://arxiv.org/abs/2211.06588v3
- Date: Fri, 16 Jun 2023 03:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:14:13.392846
- Title: DEYO: DETR with YOLO for Step-by-Step Object Detection
- Title(参考訳): DEYO: ステップバイステップオブジェクト検出のためのYOLO付きDETR
- Authors: Haodong Ouyang
- Abstract要約: 本稿では, YOLO (DEYO) を用いた新しい2段階物体検出モデルDETRを提案する。
第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を改善した。
実験の結果、DEYOは12時間で50.6 AP、52.1 AP、36時間でそれぞれ到達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is an important topic in computer vision, with
post-processing, an essential part of the typical object detection pipeline,
posing a significant bottleneck affecting the performance of traditional object
detection models. The detection transformer (DETR), as the first end-to-end
target detection model, discards the requirement of manual components like the
anchor and non-maximum suppression (NMS), significantly simplifying the target
detection process. However, compared with most traditional object detection
models, DETR converges very slowly, and a query's meaning is obscure. Thus,
inspired by the Step-by-Step concept, this paper proposes a new two-stage
object detection model, named DETR with YOLO (DEYO), which relies on a
progressive inference to solve the above problems. DEYO is a two-stage
architecture comprising a classic target detection model and a DETR-like model
as the first and second stages, respectively. Specifically, the first stage
provides high-quality query and anchor feeding into the second stage, improving
the performance and efficiency of the second stage compared to the original
DETR model. Meanwhile, the second stage compensates for the performance
degradation caused by the first stage detector's limitations. Extensive
experiments demonstrate that DEYO attains 50.6 AP and 52.1 AP in 12 and 36
epochs, respectively, while utilizing ResNet-50 as the backbone and multi-scale
features on the COCO dataset. Compared with DINO, an optimal DETR-like model,
the developed DEYO model affords a significant performance improvement of 1.6
AP and 1.2 AP in two epoch settings.
- Abstract(参考訳): オブジェクト検出はコンピュータビジョンにおいて重要なトピックであり、後処理は典型的なオブジェクト検出パイプラインの重要な部分であり、従来のオブジェクト検出モデルの性能に重大なボトルネックをもたらす。
第1のエンドツーエンドターゲット検出モデルである検出トランス(detr)は、アンカーや非最大抑制(nms)といった手動コンポーネントの要件を破棄し、ターゲット検出プロセスを著しく単純化する。
しかし、従来のオブジェクト検出モデルと比較して、DETRは非常にゆっくりと収束し、クエリの意味は曖昧である。
そこで本研究では,ステップ・バイ・ステップ(Step-by-Step)の概念に着想を得た2段階物体検出モデルであるDETR with YOLO (DEYO)を提案する。
DEYOは古典的なターゲット検出モデルとDETRのようなモデルをそれぞれ第1と第2のステージとする2段階アーキテクチャである。
具体的には、第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を向上させる。
一方、第2段は、第1段検出器の限界による性能劣化を補償する。
大規模な実験により、DeYOは12と36のエポックで50.6 APと52.1 APを獲得し、ResNet-50をCOCOデータセットのバックボーンとマルチスケール機能として利用した。
最適なDETRライクなモデルであるDINOと比較して、DYOモデルは2つのエポックな設定で1.6 APと1.2 APの大幅な性能向上を実現している。
関連論文リスト
- YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection [0.0]
無人航空機からの絶縁体欠陥検出のための既存の検出方法は、複雑な背景や小さな物体と競合する。
本稿では,この課題に対処するため,新しい注目基盤アーキテクチャであるYOLO-ELAを提案する。
高分解能UAV画像による実験結果から,本手法は96.9% mAP0.5,リアルタイム検出速度74.63フレーム/秒を実現した。
論文 参考訳(メタデータ) (2024-10-15T16:00:01Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - DEYOv2: Rank Feature with Greedy Matching for End-to-End Object
Detection [0.0]
本稿では,第1世代のDEYOモデルの改良版であるDEYOv2を提案する。
モデルトレーニングを加速し、パフォーマンスを高めるために、プログレッシブな推論アプローチを採用している。
私たちの知る限りでは、DEYOv2は古典的な検出器とクエリベースの検出器のそれぞれの強度を組み合わせた、最初の完全なエンドツーエンドのオブジェクト検出器である。
論文 参考訳(メタデータ) (2023-06-15T14:42:26Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Condensing Two-stage Detection with Automatic Object Key Part Discovery [87.1034745775229]
2段階の物体検出器は通常、高い精度を達成するために、検出ヘッドのために過度に大きなモデルを必要とする。
そこで本研究では,2段階検出ヘッドのモデルパラメータを,対象キー部分に集中させることで縮合・縮小できることを示す。
提案手法は、一般的な2段検出ヘッドのモデルパラメータの約50%を放棄しながら、元の性能を一貫して維持する。
論文 参考訳(メタデータ) (2020-06-10T01:20:47Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。