論文の概要: Self-slimmed Vision Transformer
- arxiv url: http://arxiv.org/abs/2111.12624v1
- Date: Wed, 24 Nov 2021 16:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:27:41.583557
- Title: Self-slimmed Vision Transformer
- Title(参考訳): セルフスリムビジョントランス
- Authors: Zhuofan Zong, Kunchang Li, Guanglu Song, Yali Wang, Yu Qiao, Biao
Leng, Yu Liu
- Abstract要約: 視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
- 参考スコア(独自算出の注目度): 52.67243496139175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have become the popular structures and
outperformed convolutional neural networks (CNNs) on various vision tasks.
However, such powerful transformers bring a huge computation burden. And the
essential barrier behind this is the exhausting token-to-token comparison. To
alleviate this, we delve deeply into the model properties of ViT and observe
that ViTs exhibit sparse attention with high token similarity. This intuitively
introduces us a feasible structure-agnostic dimension, token number, to reduce
the computational cost. Based on this exploration, we propose a generic
self-slimmed learning approach for vanilla ViTs, namely SiT. Specifically, we
first design a novel Token Slimming Module (TSM), which can boost the inference
efficiency of ViTs by dynamic token aggregation. Different from the token hard
dropping, our TSM softly integrates redundant tokens into fewer informative
ones, which can dynamically zoom visual attention without cutting off
discriminative token relations in the images. Furthermore, we introduce a
concise Dense Knowledge Distillation (DKD) framework, which densely transfers
unorganized token information in a flexible auto-encoder manner. Due to the
similar structure between teacher and student, our framework can effectively
leverage structure knowledge for better convergence. Finally, we conduct
extensive experiments to evaluate our SiT. It demonstrates that our method can
speed up ViTs by 1.7x with negligible accuracy drop, and even speed up ViTs by
3.6x while maintaining 97% of their performance. Surprisingly, by simply arming
LV-ViT with our SiT, we achieve new state-of-the-art performance on ImageNet,
surpassing all the CNNs and ViTs in the recent literature.
- Abstract(参考訳): 視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Convolutional Neural Network)よりも優れています。
しかし、このような強力なトランスは計算負荷が大きい。
そして、この背後にある重要な障壁は、徹底したトークン対token比較です。
これを軽減するために、我々はViTのモデル特性を深く掘り下げ、ViTsがトークン類似度の高い疎い注意を示すのを観察する。
これは直感的に構造非依存な次元であるトークン番号を導入し、計算コストを削減します。
そこで本研究では,バニラVIT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、動的トークンアグリゲーションによってViTの推論効率を向上させる新しいToken Slimming Module (TSM) を最初に設計する。
トークンのハードドロップと異なり、我々のTSMは冗長トークンを少ない情報にソフトに統合し、画像内の識別トークンの関係を断ち切ることなく視覚的注意を動的にズームすることができる。
さらに,非組織トークン情報を柔軟に自動エンコーダ方式で高密度に転送する,簡潔なDense Knowledge Distillation (DKD) フレームワークを導入する。
教師と生徒の類似構造により,構造知識を効果的に活用し,収束性を高めることができる。
最後に,SiTを評価するための広範囲な実験を行った。
その結果,ViTを1.7倍の精度で高速化し,ViTを3.6倍の速度で高速化し,性能の97%を維持した。
驚いたことに、私たちは単にLV-ViTをSiTに組み込むことで、ImageNet上で新しい最先端のパフォーマンスを実現し、最近の文献ではCNNやViTを全て上回っている。
関連論文リスト
- Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets [30.178427266135756]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
論文 参考訳(メタデータ) (2024-04-03T17:58:21Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。