論文の概要: Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.03650v1
- Date: Mon, 7 Jun 2021 14:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:00:04.074852
- Title: Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
- Title(参考訳): Shuffle Transformer:視覚変換器の空間シャッフル再考
- Authors: Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu
- Abstract要約: そこで我々はShuffle Transformerという新しい視覚変換器を提案する。
提案アーキテクチャは,画像レベルの分類,オブジェクト検出,セマンティックセグメンテーションなど,幅広い視覚的タスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 20.92010433074935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Very recently, Window-based Transformers, which computed self-attention
within non-overlapping local windows, demonstrated promising results on image
classification, semantic segmentation, and object detection. However, less
study has been devoted to the cross-window connection which is the key element
to improve the representation ability. In this work, we revisit the spatial
shuffle as an efficient way to build connections among windows. As a result, we
propose a new vision transformer, named Shuffle Transformer, which is highly
efficient and easy to implement by modifying two lines of code. Furthermore,
the depth-wise convolution is introduced to complement the spatial shuffle for
enhancing neighbor-window connections. The proposed architectures achieve
excellent performance on a wide range of visual tasks including image-level
classification, object detection, and semantic segmentation. Code will be
released for reproduction.
- Abstract(参考訳): 最近では、重複しないローカルウィンドウ内で自己注意を計算したウィンドウベースのトランスフォーマーが、画像分類、セマンティックセグメンテーション、オブジェクト検出において有望な結果を示した。
しかし、表現能力を向上させるキー要素であるクロスウィンドウ接続に関する研究は少ない。
本研究では,空間的シャッフルをウィンドウ間の接続を効率的に構築する方法として再検討する。
その結果,Shuffle Transformerと呼ばれる新しい視覚変換器が提案され,2行のコードを修正することで実装が容易になった。
さらに,隣接ウインドウ接続強化のための空間シャッフルを補うために,深さ方向畳み込みを導入する。
提案するアーキテクチャは,画像レベルの分類,オブジェクト検出,セマンティクスセグメンテーションなど,幅広い視覚タスクにおいて優れた性能を実現する。
コードは再生のためにリリースされます。
関連論文リスト
- Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Degenerate Swin to Win: Plain Window-based Transformer without
Sophisticated Operations [36.57766081271396]
Vision Transformerは、長い範囲の依存関係を特徴付けることができるより大きな受容フィールドを持つ。
効率を上げるために、ウィンドウベースのVision Transformerが登場した。
Swin Transformerのキーデザイン要素であるシフトウインドウパーティショニングの必要性を確認する。
論文 参考訳(メタデータ) (2022-11-25T17:36:20Z) - Cross Aggregation Transformer for Image Restoration [48.390140041131886]
近年,畳み込みニューラルネットワーク(CNN)に代えて,画像復元にトランスフォーマーアーキテクチャが導入されている。
上記の問題に対処するため,新しい画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
さらに,CNNの帰納バイアス(例えば翻訳における帰納的バイアス)を組み込んだ自己注意機構を補完するLocality Complementary Moduleを提案する。
論文 参考訳(メタデータ) (2022-11-24T15:09:33Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。