論文の概要: An Extendable, Efficient and Effective Transformer-based Object Detector
- arxiv url: http://arxiv.org/abs/2204.07962v1
- Date: Sun, 17 Apr 2022 09:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:03:03.658671
- Title: An Extendable, Efficient and Effective Transformer-based Object Detector
- Title(参考訳): 拡張可能・効率的・効果的なトランス型オブジェクト検出器
- Authors: Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han,
Byeongho Heo, Wonjae Kim, Ming-Hsuan Yang
- Abstract要約: 我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
- 参考スコア(独自算出の注目度): 95.06044204961009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been widely used in numerous vision problems especially for
visual recognition and detection. Detection transformers are the first fully
end-to-end learning systems for object detection, while vision transformers are
the first fully transformer-based architecture for image classification. In
this paper, we integrate Vision and Detection Transformers (ViDT) to construct
an effective and efficient object detector. ViDT introduces a reconfigured
attention module to extend the recent Swin Transformer to be a standalone
object detector, followed by a computationally efficient transformer decoder
that exploits multi-scale features and auxiliary techniques essential to boost
the detection performance without much increase in computational load. In
addition, we extend it to ViDT+ to support joint-task learning for object
detection and instance segmentation. Specifically, we attach an efficient
multi-scale feature fusion layer and utilize two more auxiliary training
losses, IoU-aware loss and token labeling loss. Extensive evaluation results on
the Microsoft COCO benchmark dataset demonstrate that ViDT obtains the best AP
and latency trade-off among existing fully transformer-based object detectors,
and its extended ViDT+ achieves 53.2AP owing to its high scalability for large
models. The source code and trained models are available at
https://github.com/naver-ai/vidt.
- Abstract(参考訳): トランスフォーマーは多くの視覚問題、特に視覚認識や検出に広く用いられている。
検出トランスフォーマーは物体検出のための最初のエンドツーエンド学習システムであり、視覚トランスフォーマーは画像分類のための最初の完全トランスフォーマーベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
vidtは再構成されたアテンションモジュールを導入して、最近のswainトランスをスタンドアロンオブジェクト検出器に拡張し、さらにマルチスケール機能や補助技術を活用した計算効率の高いトランスフォーマデコーダを導入し、計算負荷を大きく増加させることなく検出性能を向上させる。
さらに、オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
具体的には,効率的なマルチスケール機能融合層を付加し,さらに2つの補助訓練損失,iouアウェア損失とトークンラベリング損失を利用する。
Microsoft COCOベンチマークデータセットの大規模な評価結果は、ViDTが既存の完全トランスフォーマーベースのオブジェクト検出器の中で最高のAPとレイテンシのトレードオフを得ることを示した。
ソースコードとトレーニングされたモデルはhttps://github.com/naver-ai/vidt.comで入手できる。
関連論文リスト
- Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。