論文の概要: Conditional DETR V2: Efficient Detection Transformer with Box Queries
- arxiv url: http://arxiv.org/abs/2207.08914v1
- Date: Mon, 18 Jul 2022 20:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:44:08.354122
- Title: Conditional DETR V2: Efficient Detection Transformer with Box Queries
- Title(参考訳): 条件付きDETR V2: ボックスクエリによる効率的な検出変換器
- Authors: Xiaokang Chen, Fangyun Wei, Gang Zeng, Jingdong Wang
- Abstract要約: 我々は,NMSなどの手作り後処理を必要としないトランスフォーマーエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出手法に興味がある。
高速なトレーニング収束を備えた改良されたDETRであるConditional DETRにインスパイアされ、オブジェクトクエリを参照ポイントの埋め込みの合成であるボックスクエリの形式に再構成する。
画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
- 参考スコア(独自算出の注目度): 58.9706842210695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we are interested in Detection Transformer (DETR), an
end-to-end object detection approach based on a transformer encoder-decoder
architecture without hand-crafted postprocessing, such as NMS. Inspired by
Conditional DETR, an improved DETR with fast training convergence, that
presented box queries (originally called spatial queries) for internal decoder
layers, we reformulate the object query into the format of the box query that
is a composition of the embeddings of the reference point and the
transformation of the box with respect to the reference point. This
reformulation indicates the connection between the object query in DETR and the
anchor box that is widely studied in Faster R-CNN. Furthermore, we learn the
box queries from the image content, further improving the detection quality of
Conditional DETR still with fast training convergence. In addition, we adopt
the idea of axial self-attention to save the memory cost and accelerate the
encoder. The resulting detector, called Conditional DETR V2, achieves better
results than Conditional DETR, saves the memory cost and runs more efficiently.
For example, for the DC$5$-ResNet-$50$ backbone, our approach achieves $44.8$
AP with $16.4$ FPS on the COCO $val$ set and compared to Conditional DETR, it
runs $1.6\times$ faster, saves $74$\% of the overall memory cost, and improves
$1.0$ AP score.
- Abstract(参考訳): 本稿では,NMSなどの手作り後処理を伴わないトランスコーダデコーダアーキテクチャに基づく,エンドツーエンドのオブジェクト検出手法である検出トランス (DETR) に興味がある。
内部デコーダ層に対するボックスクエリ(当初は空間クエリと呼ばれていた)を提供する高速なトレーニング収束を伴う改良されたDETRであるConditional DETRにインスパイアされ、参照点の埋め込みと参照点に対するボックスの変換の合成であるボックスクエリの形式にオブジェクトクエリを再構成する。
この改定は、DETRのオブジェクトクエリと、Faster R-CNNで広く研究されているアンカーボックスとの接続を示している。
さらに、画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。
さらに,メモリコストを削減し,エンコーダを高速化するために,軸方向自己アテンションの概念を採用する。
その結果、Conditional DETR V2と呼ばれる検出器は、Conditional DETRよりも優れた結果をもたらし、メモリコストを節約し、より効率的に動作させる。
例えば、DC$5$-ResNet-$50$バックボーンの場合、私たちのアプローチは、COCO$val$セットで$16.4$FPSで$44.8$APを獲得し、Conditional DETRと比較して1.6\times$高速に動作し、全体的なメモリコストの74$\%を節約し、$1.0$APスコアを改善する。
関連論文リスト
- SAP-DETR: Bridging the Gap Between Salient Points and Queries-Based
Transformer Detector for Fast Model Convergency [40.04140037952051]
DETRに基づくアプローチは、トランスフォーマー検出器の収束を加速するために中心概念空間を適用する。
本稿では,SAP-DETR(Salient Point-based DETR)を提案する。
実験により, SAP-DETR 1.4倍の収束速度と競争性能が得られた。
論文 参考訳(メタデータ) (2022-11-03T17:20:55Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文 参考訳(メタデータ) (2022-09-13T00:11:16Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR [37.61768722607528]
DeTR(Detection TRansformer)のための動的アンカーボックスを用いた新しいクエリ定式化を提案する。
この新たな定式化は、Transformerデコーダのクエリとしてボックス座標を直接使用し、層ごとに動的に更新する。
MS-COCOベンチマークでは、同じ設定でDETRライクな検出モデルの中で最高のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-01-28T18:51:09Z) - Sparse DETR: Efficient End-to-End Object Detection with Learnable
Sparsity [10.098578160958946]
我々は,COCOデータセット上に10%エンコーダトークンしか持たなくても,Sparse DETRがDeformable DETRよりも優れた性能を実現することを示す。
エンコーダトークンだけがスペーサー化され、総計算コストは38%減少し、フレーム/秒(FPS)はDeformable DETRに比べて42%増加する。
論文 参考訳(メタデータ) (2021-11-29T05:22:46Z) - Conditional DETR for Fast Training Convergence [76.95358216461524]
高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
論文 参考訳(メタデータ) (2021-08-13T10:07:46Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。