論文の概要: Global Interaction Modelling in Vision Transformer via Super Tokens
- arxiv url: http://arxiv.org/abs/2111.13156v1
- Date: Thu, 25 Nov 2021 16:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:43:34.188301
- Title: Global Interaction Modelling in Vision Transformer via Super Tokens
- Title(参考訳): スーパートークンを用いた視覚トランスフォーマのグローバルインタラクションモデリング
- Authors: Ammarah Farooq, Muhammad Awais, Sara Ahmed, Josef Kittler
- Abstract要約: ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
- 参考スコア(独自算出の注目度): 20.700750237972155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the popularity of Transformer architectures in computer vision, the
research focus has shifted towards developing computationally efficient
designs. Window-based local attention is one of the major techniques being
adopted in recent works. These methods begin with very small patch size and
small embedding dimensions and then perform strided convolution (patch merging)
in order to reduce the feature map size and increase embedding dimensions,
hence, forming a pyramidal Convolutional Neural Network (CNN) like design. In
this work, we investigate local and global information modelling in
transformers by presenting a novel isotropic architecture that adopts local
windows and special tokens, called Super tokens, for self-attention.
Specifically, a single Super token is assigned to each image window which
captures the rich local details for that window. These tokens are then employed
for cross-window communication and global representation learning. Hence, most
of the learning is independent of the image patches $(N)$ in the higher layers,
and the class embedding is learned solely based on the Super tokens $(N/M^2)$
where $M^2$ is the window size. In standard image classification on
Imagenet-1K, the proposed Super tokens based transformer (STT-S25) achieves
83.5\% accuracy which is equivalent to Swin transformer (Swin-B) with circa
half the number of parameters (49M) and double the inference time throughput.
The proposed Super token transformer offers a lightweight and promising
backbone for visual recognition tasks.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーアーキテクチャの人気により、研究の焦点は計算効率の高い設計へとシフトした。
ウィンドウベースのローカルな注意は、最近の作品で採用されている主要なテクニックの1つである。
これらの手法は、非常に小さなパッチサイズと小さな埋め込み次元から始まり、特徴地図のサイズを小さくし、埋め込み寸法を増やすために強化された畳み込み(パッチマージ)を行い、ピラミッド型畳み込みニューラルネットワーク(cnn)のような設計を形成する。
本研究では,変圧器における局所的およびグローバルな情報モデリングについて,ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意に利用する新しい等方的アーキテクチャを提案する。
具体的には、1つのSuperトークンが各イメージウィンドウに割り当てられ、そのウィンドウのリッチなローカル詳細をキャプチャする。
これらのトークンは、クロスウィンドウ通信とグローバル表現学習に使用される。
したがって、学習の大部分は、上位層におけるイメージパッチ $(n)$ から独立しており、クラス埋め込みは、$m^2$ がウィンドウサイズであるようなスーパートークン $(n/m^2)$ に基づいてのみ学習される。
Imagenet-1Kの標準画像分類では、提案したSuper tokens based transformer (STT-S25) は、パラメータの約半分(49M)でSwin Transformer (Swin-B) に相当する83.5\%の精度を実現し、推論時間スループットを2倍にする。
提案されているSuper token transformerは、視覚認識タスクのための軽量で有望なバックボーンを提供する。
関連論文リスト
- Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer [91.49837514935051]
我々はToken Clustering Transformer(TCFormer)と呼ばれる新しいビジョントランスを提案する。
TCTCerはトークンをプログレッシブクラスタリングによってマージし、トークンはフレキシブルな形状とサイズで異なる場所からマージすることができる。
実験によると、TCFormerは人間中心のさまざまなタスクやデータセットにおいて、一貫してその能力を上回っている。
論文 参考訳(メタデータ) (2022-04-19T05:38:16Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Vision Transformers with Hierarchical Attention [61.16912607330001]
本稿では、視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
階層型MHSA(Hierarchical MHSA, H-MHSA)を提案する。
我々は階層型アテンションベースのトランスフォーマーネットワーク,すなわちHAT-Netのファミリを構築する。
論文 参考訳(メタデータ) (2021-06-06T17:01:13Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。