論文の概要: What Makes for Hierarchical Vision Transformer?
- arxiv url: http://arxiv.org/abs/2107.02174v1
- Date: Mon, 5 Jul 2021 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:24:22.620512
- Title: What Makes for Hierarchical Vision Transformer?
- Title(参考訳): 階層的視覚トランスフォーマーには何をもたらすのか?
- Authors: Yuxin Fang, Xinggang Wang, Rui Wu, Jianwei Niu, Wenyu Liu
- Abstract要約: Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3%と比較して80.5%のTop-1精度を実現している。
- 参考スコア(独自算出の注目度): 46.848348453909495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that hierarchical Vision Transformer with interleaved
non-overlapped intra window self-attention \& shifted window self-attention is
able to achieve state-of-the-art performance in various visual recognition
tasks and challenges CNN's dense sliding window paradigm. Most follow-up works
try to replace shifted window operation with other kinds of cross window
communication while treating self-attention as the de-facto standard for intra
window information aggregation. In this short preprint, we question whether
self-attention is the only choice for hierarchical Vision Transformer to attain
strong performance, and what makes for hierarchical Vision Transformer? We
replace self-attention layers in Swin Transformer and Shuffle Transformer with
simple linear mapping and keep other components unchanged. The resulting
architecture with 25.4M parameters and 4.2G FLOPs achieves 80.5\% Top-1
accuracy, compared to 81.3\% for Swin Transformer with 28.3M parameters and
4.5G FLOPs. We also experiment with other alternatives to self-attention for
context aggregation inside each non-overlapped window, which all give similar
competitive results under the same architecture. Our study reveals that the
\textbf{macro architecture} of Swin model families (i.e., interleaved intra
window \& cross window communications), other than specific aggregation layers
or specific means of cross window communication, may be more responsible for
its strong performance and is the real challenger to CNN's dense sliding window
paradigm.
- Abstract(参考訳): 近年の研究では、インターリーブされた非オーバーラップイントラウィンドウによる階層的視覚トランスフォーマは、様々な視覚認識タスクにおいて最先端のパフォーマンスを達成でき、cnnの密集したスライディングウィンドウパラダイムに挑戦できることが示されている。
ほとんどのフォローアップ作業は、シフトしたウィンドウ操作を他の種類のクロスウィンドウ通信に置き換えようとし、自己アテンションをウィンドウ内情報集約のデファクトスタンダードとして扱う。
この短いプレプリントでは、階層的視覚トランスフォーマーが強力なパフォーマンスを達成する唯一の選択肢であるかどうか、階層的視覚トランスフォーマーに何をもたらすのかを問う。
Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3\%と比較して80.5\%のTop-1精度を達成する。
また、オーバーラップしないウィンドウ内のコンテキストアグリゲーションに対して、同じアーキテクチャの下で同様の競合結果をもたらす、自己注意の代替手段を実験します。
本研究では,Swin モデルファミリの \textbf{macro アーキテクチャ (インターリーブされたウィンドウ内 \&クロスウインドウ通信) が,特定のアグリゲーション層やクロスウインドウ通信の特定の手段以外では,より強力な性能の担い手であり,CNN の高密度スライディングウインドウパラダイムの真の挑戦者であることを示す。
関連論文リスト
- Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Cross Aggregation Transformer for Image Restoration [48.390140041131886]
近年,畳み込みニューラルネットワーク(CNN)に代えて,画像復元にトランスフォーマーアーキテクチャが導入されている。
上記の問題に対処するため,新しい画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
さらに,CNNの帰納バイアス(例えば翻訳における帰納的バイアス)を組み込んだ自己注意機構を補完するLocality Complementary Moduleを提案する。
論文 参考訳(メタデータ) (2022-11-24T15:09:33Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2mIoUという大きなマージンで、トランスフォーマーベースのモデルのビジョンバックボーンとしての可能性を実証しています。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。