論文の概要: CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows
- arxiv url: http://arxiv.org/abs/2107.00652v1
- Date: Thu, 1 Jul 2021 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:55:32.694079
- Title: CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows
- Title(参考訳): CSWin Transformer: クロスシェイプWindows搭載の一般的なビジョントランスフォーマーバックボーン
- Authors: Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Weiming Zhang and
Nenghai Yu and Lu Yuan and Dong Chen and Baining Guo
- Abstract要約: 汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
- 参考スコア(独自算出の注目度): 99.36226415086243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CSWin Transformer, an efficient and effective Transformer-based
backbone for general-purpose vision tasks. A challenging issue in Transformer
design is that global self-attention is very expensive to compute whereas local
self-attention often limits the field of interactions of each token. To address
this issue, we develop the Cross-Shaped Window self-attention mechanism for
computing self-attention in the horizontal and vertical stripes in parallel
that form a cross-shaped window, with each stripe obtained by splitting the
input feature into stripes of equal width. We provide a detailed mathematical
analysis of the effect of the stripe width and vary the stripe width for
different layers of the Transformer network which achieves strong modeling
capability while limiting the computation cost. We also introduce
Locally-enhanced Positional Encoding (LePE), which handles the local positional
information better than existing encoding schemes. LePE naturally supports
arbitrary input resolutions, and is thus especially effective and friendly for
downstream tasks. Incorporated with these designs and a hierarchical structure,
CSWin Transformer demonstrates competitive performance on common vision tasks.
Specifically, it achieves 85.4% Top-1 accuracy on ImageNet-1K without any extra
training data or label, 53.9 box AP and 46.4 mask AP on the COCO detection
task, and 51.7 mIOU on the ADE20K semantic segmentation task, surpassing
previous state-of-the-art Swin Transformer backbone by +1.2, +2.0, +1.4, and
+2.0 respectively under the similar FLOPs setting. By further pretraining on
the larger dataset ImageNet-21K, we achieve 87.5% Top-1 accuracy on ImageNet-1K
and state-of-the-art segmentation performance on ADE20K with 55.2 mIoU. The
code and models will be available at
https://github.com/microsoft/CSWin-Transformer.
- Abstract(参考訳): 汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計の課題は、グローバル自己着脱が計算に非常に高価であるのに対して、ローカルな自己着脱は各トークンの相互作用の場を制限することが多いことである。
そこで本研究では, 入力特徴を等幅のストライプに分割し, 水平および垂直のストライプの自着を並列に計算し, クロス型ウィンドウを形成するクロス型ウィンドウ自着機構を開発した。
計算コストを制限しつつ、強力なモデリング能力を実現するトランスネットワークの異なる層に対して、ストライプ幅の影響の詳細な数学的解析を行い、ストライプ幅を変化させる。
また,既存の符号化方式よりも局所的な位置情報を扱う局所拡張位置符号化(LePE)を導入する。
LePEは自然に任意の入力解像度をサポートしており、ダウンストリームタスクには特に効果的で親しみやすい。
これらの設計と階層構造を組み込んだCSWin Transformerは、共通ビジョンタスクにおける競合性能を示す。
具体的には、追加のトレーニングデータやラベルなしでImageNet-1Kで85.4%のTop-1精度、COCO検出タスクで53.9ボックスAPと46.4マスクAP、ADE20Kセマンティックセグメンテーションタスクで51.7mIOUを達成し、それぞれ同じFLOP設定で、以前の最先端のSwin Transformerバックボーンを+1.2、+2.0、+1.4、+2.0で上回る。
より大きなデータセットであるImageNet-21Kを事前トレーニングすることで、ImageNet-1Kで87.5%の精度と、55.2 mIoUでADE20Kで最先端のセグメンテーション性能を達成した。
コードとモデルはhttps://github.com/microsoft/cswin-transformerで入手できる。
関連論文リスト
- DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2mIoUという大きなマージンで、トランスフォーマーベースのモデルのビジョンバックボーンとしての可能性を実証しています。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。