論文の概要: DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
- arxiv url: http://arxiv.org/abs/2201.12329v1
- Date: Fri, 28 Jan 2022 18:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 15:44:10.103578
- Title: DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
- Title(参考訳): DAB-DETR: DETRのための動的アンカーボックス
- Authors: Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun
Zhu, Lei Zhang
- Abstract要約: DeTR(Detection TRansformer)のための動的アンカーボックスを用いた新しいクエリ定式化を提案する。
この新たな定式化は、Transformerデコーダのクエリとしてボックス座標を直接使用し、層ごとに動的に更新する。
MS-COCOベンチマークでは、同じ設定でDETRライクな検出モデルの中で最高のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 37.61768722607528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present in this paper a novel query formulation using dynamic anchor boxes
for DETR (DEtection TRansformer) and offer a deeper understanding of the role
of queries in DETR. This new formulation directly uses box coordinates as
queries in Transformer decoders and dynamically updates them layer-by-layer.
Using box coordinates not only helps using explicit positional priors to
improve the query-to-feature similarity and eliminate the slow training
convergence issue in DETR, but also allows us to modulate the positional
attention map using the box width and height information. Such a design makes
it clear that queries in DETR can be implemented as performing soft ROI pooling
layer-by-layer in a cascade manner. As a result, it leads to the best
performance on MS-COCO benchmark among the DETR-like detection models under the
same setting, e.g., AP 45.7\% using ResNet50-DC5 as backbone trained in 50
epochs. We also conducted extensive experiments to confirm our analysis and
verify the effectiveness of our methods. Code is available at
\url{https://github.com/SlongLiu/DAB-DETR}.
- Abstract(参考訳): 本稿では,DTR(Detection TRansformer)のための動的アンカーボックスを用いた新しいクエリ定式化を行い,DTRにおけるクエリの役割についてより深く理解する。
この新たな定式化は、Transformerデコーダのクエリとしてボックス座標を直接使用し、層ごとに動的に更新する。
ボックス座標を用いることで,クエリ・ツー・フィーチャーの類似性を向上し,DETRの遅いトレーニング収束問題を解消するだけでなく,ボックス幅と高さ情報を用いて位置対応マップを変調することが可能になる。
このような設計により、DETRにおけるクエリは、カスケード方式でソフトROIプーリング層として実装可能であることが明らかになる。
その結果、同じ設定下でのDEC-COCOベンチマークでは、例えばAP 45.7\%でResNet50-DC5を50時間でトレーニングしたバックボーンとして使用した。
また,本手法の有効性を検証するため,広範な実験を行った。
コードは \url{https://github.com/SlongLiu/DAB-DETR} で入手できる。
関連論文リスト
- End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z) - Conditional DETR V2: Efficient Detection Transformer with Box Queries [58.9706842210695]
我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。
高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。
画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
論文 参考訳(メタデータ) (2022-07-18T20:08:55Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Anchor DETR: Query Design for Transformer-Based Detector [24.925317590675203]
本稿では,トランスを用いた新しいクエリ設計を提案する。
オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
我々の設計では「一つの領域、複数のオブジェクト」という難題を解決するために、一つの位置で複数のオブジェクトを予測できる。
論文 参考訳(メタデータ) (2021-09-15T06:31:55Z) - Conditional DETR for Fast Training Convergence [76.95358216461524]
高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
論文 参考訳(メタデータ) (2021-08-13T10:07:46Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。