論文の概要: Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion
- arxiv url: http://arxiv.org/abs/2207.14172v1
- Date: Thu, 28 Jul 2022 15:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:35:22.824321
- Title: Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion
- Title(参考訳): 拡張detr収束とマルチスケール特徴融合のための意味整合マッチング
- Authors: Gongjie Zhang, Zhipeng Luo, Yingchen Yu, Jiaxing Huang, Kaiwen Cui,
Shijian Lu, Eric P. Xing
- Abstract要約: 提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
- 参考スコア(独自算出の注目度): 95.7732308775325
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recently proposed DEtection TRansformer (DETR) has established a fully
end-to-end paradigm for object detection. However, DETR suffers from slow
training convergence, which hinders its applicability to various detection
tasks. We observe that DETR's slow convergence is largely attributed to the
difficulty in matching object queries to relevant regions due to the unaligned
semantics between object queries and encoded image features. With this
observation, we design Semantic-Aligned-Matching DETR++ (SAM-DETR++) to
accelerate DETR's convergence and improve detection performance. The core of
SAM-DETR++ is a plug-and-play module that projects object queries and encoded
image features into the same feature embedding space, where each object query
can be easily matched to relevant regions with similar semantics. Besides,
SAM-DETR++ searches for multiple representative keypoints and exploits their
features for semantic-aligned matching with enhanced representation capacity.
Furthermore, SAM-DETR++ can effectively fuse multi-scale features in a
coarse-to-fine manner on the basis of the designed semantic-aligned matching.
Extensive experiments show that the proposed SAM-DETR++ achieves superior
convergence speed and competitive detection accuracy. Additionally, as a
plug-and-play method, SAM-DETR++ can complement existing DETR convergence
solutions with even better performance, achieving 44.8% AP with merely 12
training epochs and 49.1% AP with 50 training epochs on COCO val2017 with
ResNet-50. Codes are available at https://github.com/ZhangGongjie/SAM-DETR .
- Abstract(参考訳): 最近提案されたDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
しかし、DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
DeTRの緩やかな収束は、オブジェクトクエリと符号化された画像特徴との間の非整合的なセマンティクスにより、オブジェクトクエリと関連する領域とのマッチングが困難であることに起因する。
本研究では,Semantic-Aligned-Matching DETR++ (SAM-DETR++) を設計し,DTRの収束を加速し,検出性能を向上させる。
SAM-DETR++の中核は、オブジェクトクエリとエンコードされたイメージ機能を同じ機能埋め込み空間に投影するプラグイン・アンド・プレイモジュールで、各オブジェクトクエリは、類似したセマンティクスを持つ関連する領域と簡単にマッチングできる。
さらにSAM-DETR++は、複数の代表キーポイントを検索し、その特徴を表現能力の強化とセマンティック整合性マッチングに活用する。
さらにSAM-DETR++は、設計したセマンティック整合性マッチングに基づいて、マルチスケール機能を粗い方法で効果的に融合することができる。
大規模な実験により,提案したSAM-DETR++は収束速度と競合検出精度に優れていた。
さらに、SAM-DETR++はプラグイン・アンド・プレイの方法として、既存のDETR収束ソリューションをさらに優れたパフォーマンスで補完することができ、わずか12のトレーニングエポックと49.1%のAPで44.8%のAP、ResNet-50でCOCO val2017で50のトレーニングエポックを達成している。
コードはhttps://github.com/ZhangGongjie/SAM-DETR で公開されている。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - DETRs with Hybrid Matching [21.63116788914251]
1対1のセットマッチングは、DETRがエンドツーエンドの機能を確立するための鍵となる設計である。
本稿では,従来の1対1のマッチングブランチと,トレーニング中に補助的な1対1のマッチングブランチを組み合わせるハイブリッドマッチング方式を提案する。
論文 参考訳(メタデータ) (2022-07-26T17:52:14Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Conditional DETR for Fast Training Convergence [76.95358216461524]
高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。
当社のアプローチは,DeTRにおけるクロスアテンションが,四つの極端をローカライズするためのコンテンツ埋め込みに大きく依存していることに動機づけられている。
本研究では, バックボーンR50, R101では条件DTRが6.7倍, バックボーンDC5-R50, DC5-R101では10倍の速度で収束することを示す。
論文 参考訳(メタデータ) (2021-08-13T10:07:46Z) - Fast Convergence of DETR with Spatially Modulated Co-Attention [83.19863907905666]
本研究では,空間変調型コアテンション(SMCA)機構である検出トランスフォーマフレームワークの改良のための簡易かつ効果的な手法を提案する。
提案するSMCAはデコーダの本来のコアテンション機構を置き換えることでDTRの収束速度を向上する。
拡張畳み込みベースのバックボーンを持つDETRと比較して, 完全知識のSMCAの方が優れた性能が得られる。
論文 参考訳(メタデータ) (2021-08-05T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。