論文の概要: CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows
- arxiv url: http://arxiv.org/abs/2107.00652v1
- Date: Thu, 1 Jul 2021 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:55:32.694079
- Title: CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows
- Title(参考訳): CSWin Transformer: クロスシェイプWindows搭載の一般的なビジョントランスフォーマーバックボーン
- Authors: Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Weiming Zhang and
Nenghai Yu and Lu Yuan and Dong Chen and Baining Guo
- Abstract要約: 汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
- 参考スコア(独自算出の注目度): 99.36226415086243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CSWin Transformer, an efficient and effective Transformer-based
backbone for general-purpose vision tasks. A challenging issue in Transformer
design is that global self-attention is very expensive to compute whereas local
self-attention often limits the field of interactions of each token. To address
this issue, we develop the Cross-Shaped Window self-attention mechanism for
computing self-attention in the horizontal and vertical stripes in parallel
that form a cross-shaped window, with each stripe obtained by splitting the
input feature into stripes of equal width. We provide a detailed mathematical
analysis of the effect of the stripe width and vary the stripe width for
different layers of the Transformer network which achieves strong modeling
capability while limiting the computation cost. We also introduce
Locally-enhanced Positional Encoding (LePE), which handles the local positional
information better than existing encoding schemes. LePE naturally supports
arbitrary input resolutions, and is thus especially effective and friendly for
downstream tasks. Incorporated with these designs and a hierarchical structure,
CSWin Transformer demonstrates competitive performance on common vision tasks.
Specifically, it achieves 85.4% Top-1 accuracy on ImageNet-1K without any extra
training data or label, 53.9 box AP and 46.4 mask AP on the COCO detection
task, and 51.7 mIOU on the ADE20K semantic segmentation task, surpassing
previous state-of-the-art Swin Transformer backbone by +1.2, +2.0, +1.4, and
+2.0 respectively under the similar FLOPs setting. By further pretraining on
the larger dataset ImageNet-21K, we achieve 87.5% Top-1 accuracy on ImageNet-1K
and state-of-the-art segmentation performance on ADE20K with 55.2 mIoU. The
code and models will be available at
- Abstract(参考訳): 汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
そこで本研究では, 入力特徴を等幅のストライプに分割し, 水平および垂直のストライプの自着を並列に計算し, クロス型ウィンドウを形成するクロス型ウィンドウ自着機構を開発した。
これらの設計と階層構造を組み込んだCSWin Transformerは、共通ビジョンタスクにおける競合性能を示す。
具体的には、追加のトレーニングデータやラベルなしでImageNet-1Kで85.4%のTop-1精度、COCO検出タスクで53.9ボックスAPと46.4マスクAP、ADE20Kセマンティックセグメンテーションタスクで51.7mIOUを達成し、それぞれ同じFLOP設定で、以前の最先端のSwin Transformerバックボーンを+1.2、+2.0、+1.4、+2.0で上回る。
より大きなデータセットであるImageNet-21Kを事前トレーニングすることで、ImageNet-1Kで87.5%の精度と、55.2 mIoUでADE20Kで最先端のセグメンテーション性能を達成した。
- DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z)