論文の概要: Super Vision Transformer
- arxiv url: http://arxiv.org/abs/2205.11397v1
- Date: Mon, 23 May 2022 15:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:33:48.495652
- Title: Super Vision Transformer
- Title(参考訳): スーパービジョントランス
- Authors: Mingbao Lin, Mengzhao Chen, Yuxin Zhang, Ke Li, Yunhang Shen, Chunhua
Shen, Rongrong Ji
- Abstract要約: ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
- 参考スコア(独自算出の注目度): 125.36997441289297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We attempt to reduce the computational costs in vision transformers (ViTs),
which increase quadratically in the token number. We present a novel training
paradigm that trains only one ViT model at a time, but is capable of providing
improved image recognition performance with various computational costs. Here,
the trained ViT model, termed super vision transformer (SuperViT), is empowered
with the versatile ability to solve incoming patches of multiple sizes as well
as preserve informative tokens with multiple keeping rates (the ratio of
keeping tokens) to achieve good hardware efficiency for inference, given that
the available hardware resources often change from time to time. Experimental
results on ImageNet demonstrate that our SuperViT can considerably reduce the
computational costs of ViT models with even performance increase. For example,
we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and
0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing
studies on efficient vision transformers. For example, when consuming the same
amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SoTA) EViT
by 1.1% when using DeiT-S as their backbones. The project of this work is made
publicly available at https://github.com/lmbxmu/SuperViT.
- Abstract(参考訳): トークン数において2次的に増加する視覚変換器(ViT)の計算コストを削減しようとする。
本稿では,一度に1つのViTモデルのみを訓練する新しい訓練パラダイムを提案するが,様々な計算コストで画像認識性能を向上させることができる。
ここで、訓練されたvitモデルはsuper vision transformer(supervit)と呼ばれ、複数のサイズの入ってくるパッチを解決し、複数の保持率(トークンの保持率)を持つ情報トークンを保存し、利用可能なハードウェアリソースが時折変化することを考慮し、推論のための優れたハードウェア効率を達成する能力を備えている。
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
例えば、DeiT-Sの2倍FLOPを減少させ、Top-1の精度を0.2%、1.5倍の精度で0.7%向上させる。
また、我々のSuperViTは、効率的な視覚変換器に関する既存の研究を著しく上回っている。
例えば、同じ量のFLOPを消費する場合、SuperViTはDeiT-Sをバックボーンとして使用する場合、最新の最先端(SoTA)EViTを1.1%上回る。
この作業のプロジェクトはhttps://github.com/lmbxmu/supervit.comで公開されている。
関連論文リスト
- DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - AdaptFormer: Adapting Vision Transformers for Scalable Visual
Recognition [39.443380221227166]
本稿では,Transformerの効果的な適応手法,すなわちAdaptFormerを提案する。
トレーニング済みのViTを、さまざまな画像やビデオタスクに効率的に適応させることができる。
オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。
論文 参考訳(メタデータ) (2022-05-26T17:56:15Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。
また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-05T19:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。