論文の概要: CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector
- arxiv url: http://arxiv.org/abs/2110.12364v1
- Date: Sun, 24 Oct 2021 06:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 13:39:16.262250
- Title: CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector
- Title(参考訳): cvt-assd:畳み込み視覚変換器に基づく注意型単発マルチボックス検出器
- Authors: Weiqiang Jin, Hang Yu, Hang Yu
- Abstract要約: 本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
- 参考スコア(独自算出の注目度): 15.656374849760734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the success of Bidirectional Encoder Representations from Transformers
(BERT) in natural language process (NLP), the multi-head attention transformer
has been more and more prevalent in computer-vision researches (CV). However,
it still remains a challenge for researchers to put forward complex tasks such
as vision detection and semantic segmentation. Although multiple
Transformer-Based architectures like DETR and ViT-FRCNN have been proposed to
complete object detection task, they inevitably decreases discrimination
accuracy and brings down computational efficiency caused by the enormous
learning parameters and heavy computational complexity incurred by the
traditional self-attention operation. In order to alleviate these issues, we
present a novel object detection architecture, named Convolutional vision
Transformer Based Attentive Single Shot MultiBox Detector (CvT-ASSD), that
built on the top of Convolutional vision Transormer (CvT) with the efficient
Attentive Single Shot MultiBox Detector (ASSD). We provide comprehensive
empirical evidence showing that our model CvT-ASSD can leads to good system
efficiency and performance while being pretrained on large-scale detection
datasets such as PASCAL VOC and MS COCO. Code has been released on public
github repository at https://github.com/albert-jin/CvT-ASSD.
- Abstract(参考訳): 自然言語処理(nlp)におけるトランスフォーマー(bert)からの双方向エンコーダ表現の成功により、コンピュータビジョン研究(cv)においてマルチヘッドアテンショントランスフォーマがより普及してきた。
しかし、研究者が視覚検出やセマンティックセグメンテーションといった複雑なタスクを遂行することは依然として課題である。
DETRやViT-FRCNNのような複数のトランスフォーマーベースのアーキテクチャがオブジェクト検出タスクの完了のために提案されているが、識別精度は必然的に低下し、従来の自己注意操作によって生じる膨大な学習パラメータと重い計算複雑性に起因する計算効率が低下する。
これらの問題を緩和するために,コンボリューショナル・ビジョン・トランスフォーマー(CvT-ASSD)という,効率的なコンボリューショナル・シングル・ショット・マルチボックス・ディテクタ(ASSD)を備えた,コンボリューショナル・ビジョン・トランスオーマー(CvT)上に構築された新しいオブジェクト検出アーキテクチャを提案する。
我々は,我々のモデルであるCvT-ASSDがPASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上できることを示す総合的な実証的証拠を提供する。
コードはhttps://github.com/albert-jin/CvT-ASSDの公開githubリポジトリでリリースされた。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。