論文の概要: Conditional DETR for Fast Training Convergence
- arxiv url: http://arxiv.org/abs/2108.06152v3
- Date: Fri, 29 Sep 2023 13:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 19:57:33.015985
- Title: Conditional DETR for Fast Training Convergence
- Title(参考訳): 高速トレーニング収束のための条件付きDETR
- Authors: Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui
Yuan, Lei Sun, Jingdong Wang
- Abstract要約: 高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
- 参考スコア(独自算出の注目度): 76.95358216461524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently-developed DETR approach applies the transformer encoder and
decoder architecture to object detection and achieves promising performance. In
this paper, we handle the critical issue, slow training convergence, and
present a conditional cross-attention mechanism for fast DETR training. Our
approach is motivated by that the cross-attention in DETR relies highly on the
content embeddings for localizing the four extremities and predicting the box,
which increases the need for high-quality content embeddings and thus the
training difficulty. Our approach, named conditional DETR, learns a conditional
spatial query from the decoder embedding for decoder multi-head
cross-attention. The benefit is that through the conditional spatial query,
each cross-attention head is able to attend to a band containing a distinct
region, e.g., one object extremity or a region inside the object box. This
narrows down the spatial range for localizing the distinct regions for object
classification and box regression, thus relaxing the dependence on the content
embeddings and easing the training. Empirical results show that conditional
DETR converges 6.7x faster for the backbones R50 and R101 and 10x faster for
stronger backbones DC5-R50 and DC5-R101. Code is available at
https://github.com/Atten4Vis/ConditionalDETR.
- Abstract(参考訳): 最近開発されたDETRアプローチは、トランスフォーマーエンコーダとデコーダアーキテクチャをオブジェクト検出に適用し、有望な性能を達成する。
本稿では,重要な問題に対処し,トレーニングの収束を遅くし,高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
我々のアプローチは、DETRにおけるクロスアテンションは、4つの極端をローカライズし、ボックスを予測するためのコンテンツ埋め込みに大きく依存しているため、高品質なコンテンツ埋め込みの必要性が増し、トレーニングの難しさが増している。
提案手法は条件付きdetrと呼ばれ,マルチヘッドクロスアテンションのためのデコーダ埋め込みから条件付き空間クエリを学習する。
その利点は、条件付き空間問合せによって、各クロスアテンションヘッドが、例えば1つのオブジェクトの極端またはオブジェクトボックス内の領域を含むバンドに参加することができることである。
これにより、オブジェクト分類とボックス回帰のために異なる領域をローカライズするための空間範囲を狭め、コンテンツ埋め込みへの依存を緩和し、トレーニングを緩和する。
実験の結果、DTRはバックボーンR50とR101では6.7倍、バックボーンDC5-R50とDC5-R101では10倍の速度で収束することがわかった。
コードはhttps://github.com/Atten4Vis/ConditionalDETRで入手できる。
関連論文リスト
- Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - Conditional DETR V2: Efficient Detection Transformer with Box Queries [58.9706842210695]
我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。
高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。
画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
論文 参考訳(メタデータ) (2022-07-18T20:08:55Z) - DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR [37.61768722607528]
DeTR(Detection TRansformer)のための動的アンカーボックスを用いた新しいクエリ定式化を提案する。
この新たな定式化は、Transformerデコーダのクエリとしてボックス座標を直接使用し、層ごとに動的に更新する。
MS-COCOベンチマークでは、同じ設定でDETRライクな検出モデルの中で最高のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-01-28T18:51:09Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z) - UP-DETR: Unsupervised Pre-training for Object Detection with
Transformers [11.251593386108189]
教師なし事前学習型DETR(UP-DETR)におけるランダムクエリパッチ検出という新しいプレテキストタスクを提案する。
具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。
UP-DETRは、より高速な収束とオブジェクト検出、ワンショット検出、パノプティックセグメンテーションにおける平均精度でDETRの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-18T05:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。