論文の概要: Fast Convergence of DETR with Spatially Modulated Co-Attention
- arxiv url: http://arxiv.org/abs/2108.02404v1
- Date: Thu, 5 Aug 2021 06:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:39:56.227664
- Title: Fast Convergence of DETR with Spatially Modulated Co-Attention
- Title(参考訳): 空間変調を用いたDECRの高速収束
- Authors: Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li
- Abstract要約: 本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
- 参考スコア(独自算出の注目度): 83.19863907905666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed Detection Transformer (DETR) model successfully applies
Transformer to objects detection and achieves comparable performance with
two-stage object detection frameworks, such as Faster-RCNN. However, DETR
suffers from its slow convergence. Training DETR from scratch needs 500 epochs
to achieve a high accuracy. To accelerate its convergence, we propose a simple
yet effective scheme for improving the DETR framework, namely Spatially
Modulated Co-Attention (SMCA) mechanism. The core idea of SMCA is to conduct
location-aware co-attention in DETR by constraining co-attention responses to
be high near initially estimated bounding box locations. Our proposed SMCA
increases DETR's convergence speed by replacing the original co-attention
mechanism in the decoder while keeping other operations in DETR unchanged.
Furthermore, by integrating multi-head and scale-selection attention designs
into SMCA, our fully-fledged SMCA can achieve better performance compared to
DETR with a dilated convolution-based backbone (45.6 mAP at 108 epochs vs. 43.3
mAP at 500 epochs). We perform extensive ablation studies on COCO dataset to
validate SMCA. Code is released at https://github.com/gaopengcuhk/SMCA-DETR .
- Abstract(参考訳): 最近提案されたDETRモデルは、Transformerをオブジェクト検出に適用し、Faster-RCNNのような2段階のオブジェクト検出フレームワークで同等のパフォーマンスを実現する。
しかし、DETRは収束が遅い。
DETRをスクラッチからトレーニングするには500エポックが必要である。
そこで本研究では,その収束を加速するために,DECフレームワーク,すなわちSpatially Modulated Co-Attention (SMCA) 機構を改善するための簡易かつ効果的な手法を提案する。
SMCAの中核となる考え方は、当初推定された境界ボックス付近で高いコアテンション応答を制限し、DEC における位置認識コアテンションを実行することである。
提案するSMCAは,DeTR内の他の操作を一定に保ちながら,デコーダ内の元のコアテンション機構を置き換えることで,DTRの収束速度を向上する。
さらに,マルチヘッドおよびスケール選択型アテンションデザインをSMCAに統合することにより,拡張畳み込みベースバックボーン(45.6 mAP,108 epochs,43.3 mAP,500 epochs)のDETRよりも優れた性能が得られる。
SMCAを検証するため,COCOデータセットについて広範囲にわたるアブレーション研究を行った。
コードはhttps://github.com/gaopengcuhk/SMCA-DETR で公開されている。
関連論文リスト
- Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Conditional DETR for Fast Training Convergence [76.95358216461524]
高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
論文 参考訳(メタデータ) (2021-08-13T10:07:46Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-01-19T03:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。