論文の概要: TinyViT: Fast Pretraining Distillation for Small Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.10666v1
- Date: Thu, 21 Jul 2022 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:26:23.992640
- Title: TinyViT: Fast Pretraining Distillation for Small Vision Transformers
- Title(参考訳): tinyvit: 小さな視覚トランスフォーマーのための高速予習蒸留
- Authors: Kan Wu, Jinnian Zhang, Houwen Peng, Mengchen Liu, Bin Xiao, Jianlong
Fu, Lu Yuan
- Abstract要約: 大規模データセットで事前学習した小型かつ効率的な小型視覚変換器のファミリーであるTinyViTを提案する。
中心となる考え方は、大きな事前訓練されたモデルから小さなモデルに知識を伝達し、小さなモデルが大量の事前訓練されたデータの配当を得ることを可能にすることである。
- 参考スコア(独自算出の注目度): 88.54212027516755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformer (ViT) recently has drawn great attention in computer
vision due to its remarkable model capability. However, most prevailing ViT
models suffer from huge number of parameters, restricting their applicability
on devices with limited resources. To alleviate this issue, we propose TinyViT,
a new family of tiny and efficient small vision transformers pretrained on
large-scale datasets with our proposed fast distillation framework. The central
idea is to transfer knowledge from large pretrained models to small ones, while
enabling small models to get the dividends of massive pretraining data. More
specifically, we apply distillation during pretraining for knowledge transfer.
The logits of large teacher models are sparsified and stored in disk in advance
to save the memory cost and computation overheads. The tiny student
transformers are automatically scaled down from a large pretrained model with
computation and parameter constraints. Comprehensive experiments demonstrate
the efficacy of TinyViT. It achieves a top-1 accuracy of 84.8% on ImageNet-1k
with only 21M parameters, being comparable to Swin-B pretrained on ImageNet-21k
while using 4.2 times fewer parameters. Moreover, increasing image resolutions,
TinyViT can reach 86.5% accuracy, being slightly better than Swin-L while using
only 11% parameters. Last but not the least, we demonstrate a good transfer
ability of TinyViT on various downstream tasks. Code and models are available
at https://github.com/microsoft/Cream/tree/main/TinyViT.
- Abstract(参考訳): ビジョントランス (ViT) は近年,その卓越したモデル能力のためにコンピュータビジョンに大きな注目を集めている。
しかし、ほとんどのViTモデルは膨大な数のパラメータに悩まされており、限られたリソースを持つデバイスに適用性を制限する。
この問題を軽減するために,提案する高速蒸留フレームワークを用いて,大規模データセットで事前学習した小型で効率的な小型視覚変換器のファミリーであるTinyViTを提案する。
中心となるアイデアは、大きな事前訓練されたモデルから小さなモデルへの知識の転送と、小さなモデルが大量の事前訓練データの配当を得ることだ。
より具体的には、知識伝達の事前訓練中に蒸留を適用する。
大規模な教師モデルのロジットは、メモリコストと計算オーバーヘッドを節約するために、予めディスクに格納される。
小さな学生変換器は、計算とパラメータ制約のある大きな事前学習モデルから自動的にスケールダウンされる。
総合的な実験はTinyViTの有効性を示す。
ImageNet-1kで84.8%、ImageNet-21kで事前訓練されたSwin-Bに匹敵するパラメータはわずか21Mである。
さらに、画像解像度の増大により、TinyViTの精度は86.5%に達し、Swin-Lよりわずかに良いが、パラメータはわずか11%である。
最後に、さまざまなダウンストリームタスクにおけるtinyvitの優れた転送能力を示す。
コードとモデルはhttps://github.com/microsoft/Cream/tree/main/TinyViT.comで入手できる。
関連論文リスト
- How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。