論文の概要: UP-DETR: Unsupervised Pre-training for Object Detection with
Transformers
- arxiv url: http://arxiv.org/abs/2011.09094v3
- Date: Mon, 24 Jul 2023 11:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 01:47:48.586795
- Title: UP-DETR: Unsupervised Pre-training for Object Detection with
Transformers
- Title(参考訳): UP-DETR: 変圧器を用いた物体検出のための教師なし事前学習
- Authors: Zhigang Dai, Bolun Cai, Yugeng Lin, Junying Chen
- Abstract要約: 教師なし事前学習型DETR(UP-DETR)におけるランダムクエリパッチ検出という新しいプレテキストタスクを提案する。
具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。
UP-DETRは、より高速な収束とオブジェクト検出、ワンショット検出、パノプティックセグメンテーションにおける平均精度でDETRの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 11.251593386108189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DEtection TRansformer (DETR) for object detection reaches competitive
performance compared with Faster R-CNN via a transformer encoder-decoder
architecture. However, trained with scratch transformers, DETR needs
large-scale training data and an extreme long training schedule even on COCO
dataset. Inspired by the great success of pre-training transformers in natural
language processing, we propose a novel pretext task named random query patch
detection in Unsupervised Pre-training DETR (UP-DETR). Specifically, we
randomly crop patches from the given image and then feed them as queries to the
decoder. The model is pre-trained to detect these query patches from the input
image. During the pre-training, we address two critical issues: multi-task
learning and multi-query localization. (1) To trade off classification and
localization preferences in the pretext task, we find that freezing the CNN
backbone is the prerequisite for the success of pre-training transformers. (2)
To perform multi-query localization, we develop UP-DETR with multi-query patch
detection with attention mask. Besides, UP-DETR also provides a unified
perspective for fine-tuning object detection and one-shot detection tasks. In
our experiments, UP-DETR significantly boosts the performance of DETR with
faster convergence and higher average precision on object detection, one-shot
detection and panoptic segmentation. Code and pre-training models:
https://github.com/dddzg/up-detr.
- Abstract(参考訳): オブジェクト検出のための検出TRansformer(DETR)は、変換器エンコーダ・デコーダアーキテクチャによる高速R-CNNと比較して競合性能に達する。
しかし、スクラッチトランスフォーマーでトレーニングされたdetrは、cocoデータセット上でも大規模トレーニングデータと極端に長いトレーニングスケジュールを必要とする。
自然言語処理における事前学習型トランスフォーマーの大きな成功に触発されて,Unsupervised Pre-training DETR (UP-DETR) におけるランダムクエリパッチ検出という新しいプリテキストタスクを提案する。
具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。
モデルは、入力画像からこれらのクエリパッチを検出するために事前トレーニングされる。
事前トレーニング中に,マルチタスク学習とマルチクエリローカライズという2つの重要な課題に対処した。
1)プリテキストタスクにおける分類と局所化の選好をトレードオフするため,cnnバックボーンの凍結が事前学習トランスフォーマーの成功の前提条件であることがわかった。
2)マルチクエリのローカライズを実現するため,アテンションマスクを用いたマルチクエリパッチ検出を用いたUP-DETRを開発した。
さらにUP-DETRは、微調整オブジェクト検出とワンショット検出タスクの統一的な視点も提供する。
実験では, UP-DETRはより高速に収束し, 物体検出, ワンショット検出, パン光学セグメンテーションにおける平均精度を向上する。
コードおよび事前トレーニングモデル: https://github.com/dddzg/up-detr。
関連論文リスト
- Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - An Empirical Study Of Self-supervised Learning Approaches For Object
Detection With Transformers [0.0]
画像再構成,マスク画像モデリング,ジグソーに基づく自己監督手法について検討する。
iSAIDデータセットの予備実験は、事前学習とマルチタスク学習の両方において、初期のエポックにおけるDETRのより高速な収束を示す。
論文 参考訳(メタデータ) (2022-05-11T14:39:27Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。