論文の概要: MiniViT: Compressing Vision Transformers with Weight Multiplexing
- arxiv url: http://arxiv.org/abs/2204.07154v1
- Date: Thu, 14 Apr 2022 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:37:35.087318
- Title: MiniViT: Compressing Vision Transformers with Weight Multiplexing
- Title(参考訳): MiniViT: 軽量多重化による視覚変換器の圧縮
- Authors: Jinnian Zhang, Houwen Peng, Kan Wu, Mengchen Liu, Bin Xiao, Jianlong
Fu, Lu Yuan
- Abstract要約: ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
- 参考スコア(独自算出の注目度): 88.54212027516755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) models have recently drawn much attention in
computer vision due to their high model capability. However, ViT models suffer
from huge number of parameters, restricting their applicability on devices with
limited memory. To alleviate this problem, we propose MiniViT, a new
compression framework, which achieves parameter reduction in vision
transformers while retaining the same performance. The central idea of MiniViT
is to multiplex the weights of consecutive transformer blocks. More
specifically, we make the weights shared across layers, while imposing a
transformation on the weights to increase diversity. Weight distillation over
self-attention is also applied to transfer knowledge from large-scale ViT
models to weight-multiplexed compact models. Comprehensive experiments
demonstrate the efficacy of MiniViT, showing that it can reduce the size of the
pre-trained Swin-B transformer by 48\%, while achieving an increase of 1.0\% in
Top-1 accuracy on ImageNet. Moreover, using a single-layer of parameters,
MiniViT is able to compress DeiT-B by 9.7 times from 86M to 9M parameters,
without seriously compromising the performance. Finally, we verify the
transferability of MiniViT by reporting its performance on downstream
benchmarks. Code and models are available at here.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
しかし、ViTモデルは膨大な数のパラメータに悩まされ、メモリ制限のあるデバイスに適用性を制限する。
この問題を軽減するために,同じ性能を維持しつつ,視覚変換器のパラメータ削減を実現する新しい圧縮フレームワークであるMiniViTを提案する。
MiniViTの中心的な考え方は、連続するトランスバータブロックの重みを倍にすることである。
具体的には、重みを層間で共有すると同時に、多様性を高めるために重みを変換します。
自己注意による重量蒸留は、大規模ViTモデルから重量多重化コンパクトモデルへの知識伝達にも応用される。
総合的な実験でMiniViTの有効性を実証し、事前訓練したSwin-B変圧器のサイズを48\%削減し、ImageNetのTop-1精度を1.0\%向上できることを示した。
さらに、MiniViTは1層のパラメータを使って86Mから9Mまでの9.7倍のDeiT-Bを圧縮できる。
最後に、ダウンストリームベンチマークの性能を報告し、MiniViTの転送可能性を検証する。
コードとモデルはここで入手できる。
関連論文リスト
- Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - TinyViT: Fast Pretraining Distillation for Small Vision Transformers [88.54212027516755]
大規模データセットで事前学習した小型かつ効率的な小型視覚変換器のファミリーであるTinyViTを提案する。
中心となる考え方は、大きな事前訓練されたモデルから小さなモデルに知識を伝達し、小さなモデルが大量の事前訓練されたデータの配当を得ることを可能にすることである。
論文 参考訳(メタデータ) (2022-07-21T17:59:56Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。