論文の概要: Recurrent Glimpse-based Decoder for Detection with Transformer
- arxiv url: http://arxiv.org/abs/2112.04632v1
- Date: Thu, 9 Dec 2021 00:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:03:20.999434
- Title: Recurrent Glimpse-based Decoder for Detection with Transformer
- Title(参考訳): 変圧器を用いた再帰的スピープベースデコーダ
- Authors: Zhe Chen, Jing Zhang, Dacheng Tao
- Abstract要約: 本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
- 参考スコア(独自算出の注目度): 85.64521612986456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although detection with Transformer (DETR) is increasingly popular, its
global attention modeling requires an extremely long training period to
optimize and achieve promising detection performance. Alternative to existing
studies that mainly develop advanced feature or embedding designs to tackle the
training issue, we point out that the Region-of-Interest (RoI) based detection
refinement can easily help mitigate the difficulty of training for DETR
methods. Based on this, we introduce a novel REcurrent Glimpse-based decOder
(REGO) in this paper. In particular, the REGO employs a multi-stage recurrent
processing structure to help the attention of DETR gradually focus on
foreground objects more accurately. In each processing stage, visual features
are extracted as glimpse features from RoIs with enlarged bounding box areas of
detection results from the previous stage. Then, a glimpse-based decoder is
introduced to provide refined detection results based on both the glimpse
features and the attention modeling outputs of the previous stage. In practice,
REGO can be easily embedded in representative DETR variants while maintaining
their fully end-to-end training and inference pipelines. In particular, REGO
helps Deformable DETR achieve 44.8 AP on the MSCOCO dataset with only 36
training epochs, compared with the first DETR and the Deformable DETR that
require 500 and 50 epochs to achieve comparable performance, respectively.
Experiments also show that REGO consistently boosts the performance of
different DETR detectors by up to 7% relative gain at the same setting of 50
training epochs. Code is available via
https://github.com/zhechen/Deformable-DETR-REGO.
- Abstract(参考訳): Transformer (DETR) による検出はますます普及しているが、そのグローバルアテンションモデリングは、期待できる検出性能を最適化し達成するために非常に長い訓練期間を必要とする。
学習課題に対処するための高度な特徴や組込み設計を主に開発する既存の研究とは対照的に,RoI(Regional-of-Interest)に基づく検出改善は,DETR法の訓練の難しさを軽減するのに役立つと指摘する。
そこで本稿では,Recurrent Glimpse-based decOder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注意が徐々に前景オブジェクトに焦点を合わせるのを助ける。
各処理段階において、前段から検出結果を拡大した境界ボックス領域を有するRoIから視特徴として視覚特徴を抽出する。
そして、前段の目視特徴と注意モデリング出力の両方に基づいて洗練された検出結果を提供するために、目視に基づくデコーダを導入する。
実際には、REGOは完全なエンドツーエンドのトレーニングと推論パイプラインを維持しながら、代表的なDETRバリアントに簡単に組み込むことができる。
特にREGOは、Deformable DETRがMSCOCOデータセット上でわずか36のトレーニングエポックで44.8 APを達成するのに役立ち、Deformable DETRは500エポックと50エポックを必要とする。
また実験の結果、REGOは50の訓練エポックのセットで異なるDETR検出器の性能を最大7%向上させることを示した。
コードはhttps://github.com/zhechen/Deformable-DETR-REGOから入手できる。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Revisiting DETR Pre-training for Object Detection [24.372444866927538]
完全データ条件下での堅牢なDETRモデルの性能向上におけるDETRegの欠点について検討する。
我々は、改良されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、目立った拡張をもたらす、Simple Self-trainingという最適化されたアプローチを採用しています。
これらの努力の結果、COCO valセットのAPスコアは59.3%で、事前トレーニングなしで$mathcalH$-Deformable-DETR + Swin-Lを1.4%で上回った。
論文 参考訳(メタデータ) (2023-08-02T17:39:30Z) - DEYO: DETR with YOLO for Step-by-Step Object Detection [0.0]
本稿では, YOLO (DEYO) を用いた新しい2段階物体検出モデルDETRを提案する。
第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を改善した。
実験の結果、DEYOは12時間で50.6 AP、52.1 AP、36時間でそれぞれ到達した。
論文 参考訳(メタデータ) (2022-11-12T06:36:17Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z) - UP-DETR: Unsupervised Pre-training for Object Detection with
Transformers [11.251593386108189]
教師なし事前学習型DETR(UP-DETR)におけるランダムクエリパッチ検出という新しいプレテキストタスクを提案する。
具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。
UP-DETRは、より高速な収束とオブジェクト検出、ワンショット検出、パノプティックセグメンテーションにおける平均精度でDETRの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-18T05:16:11Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。