論文の概要: Fast Convergence of DETR with Spatially Modulated Co-Attention
- arxiv url: http://arxiv.org/abs/2101.07448v1
- Date: Tue, 19 Jan 2021 03:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 08:19:38.952310
- Title: Fast Convergence of DETR with Spatially Modulated Co-Attention
- Title(参考訳): 空間変調を用いたDECRの高速収束
- Authors: Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li
- Abstract要約: 本論文では,Spatially Modulated Co-Attention (SMCA) 機構を用いた検出トランスフォーマーフレームワークの簡便かつ効果的な改善手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
- 参考スコア(独自算出の注目度): 83.19863907905666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed Detection Transformer (DETR) model successfully applies
Transformer to objects detection and achieves comparable performance with
two-stage object detection frameworks, such as Faster-RCNN. However, DETR
suffers from its slow convergence. Training DETR \cite{carion2020end} from
scratch needs 500 epochs to achieve a high accuracy. To accelerate its
convergence, we propose a simple yet effective scheme for improving the DETR
framework, namely Spatially Modulated Co-Attention (SMCA) mechanism. The core
idea of SMCA is to conduct regression-aware co-attention in DETR by
constraining co-attention responses to be high near initially estimated
bounding box locations. Our proposed SMCA increases DETR's convergence speed by
replacing the original co-attention mechanism in the decoder while keeping
other operations in DETR unchanged. Furthermore, by integrating multi-head and
scale-selection attention designs into SMCA, our fully-fledged SMCA can achieve
better performance compared to DETR with a dilated convolution-based backbone
(45.6 mAP at 108 epochs vs. 43.3 mAP at 500 epochs). We perform extensive
ablation studies on COCO dataset to validate the effectiveness of the proposed
SMCA.
- Abstract(参考訳): 最近提案されたDETRモデルは、Transformerをオブジェクト検出に適用し、Faster-RCNNのような2段階のオブジェクト検出フレームワークで同等のパフォーマンスを実現する。
しかし、DETRは収束が遅い。
DETR \cite{carion2020end}をスクラッチからトレーニングするには500エポックが必要である。
そこで本研究では,その収束を加速するために,DECフレームワーク,すなわちSpatially Modulated Co-Attention (SMCA) 機構を改善するための簡易かつ効果的な手法を提案する。
SMCAの中核となる考え方は、当初推定された境界ボックス付近で高いコアテンション応答を制限し、DECにおける回帰認識コアテンションを実行することである。
提案するSMCAは,DeTR内の他の操作を一定に保ちながら,デコーダ内の元のコアテンション機構を置き換えることで,DTRの収束速度を向上する。
さらに,マルチヘッドおよびスケール選択型アテンションデザインをSMCAに統合することにより,拡張畳み込みベースバックボーン(45.6 mAP,108 epochs,43.3 mAP,500 epochs)のDETRよりも優れた性能が得られる。
提案したSMCAの有効性を検証するため,COCOデータセットに対する広範囲なアブレーション研究を行った。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - Align-DETR: Improving DETR with Simple IoU-aware BCE loss [32.13866392998818]
そこで本稿では, 誤り訂正問題を定量的に評価するために, ベストレグレッションされたサンプルをリコールする計量法を提案する。
提案した損失であるIA-BCEは、DeTRのトレーニングをガイドし、分類スコアとローカライゼーション精度の強い相関関係を構築する。
クエリのスパーシリティによって引き起こされるサンプル品質の劇的な低下を克服するために,プライマリサンプル重み付け機構を導入する。
論文 参考訳(メタデータ) (2023-04-15T10:24:51Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Conditional DETR for Fast Training Convergence [76.95358216461524]
高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
論文 参考訳(メタデータ) (2021-08-13T10:07:46Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。