論文の概要: A Fast Training-Free Compression Framework for Vision Transformers
- arxiv url: http://arxiv.org/abs/2303.02331v1
- Date: Sat, 4 Mar 2023 05:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:13:17.006271
- Title: A Fast Training-Free Compression Framework for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーのための高速トレーニングフリー圧縮フレームワーク
- Authors: Jung Hwan Heo, Arash Fayyazi, Mahdi Nazemi, Massoud Pedram
- Abstract要約: トケンプルーニングは、大きなトランスフォーマーモデルの推論を高速化する有効なソリューションとして登場した。
しかし、ViT(Vision Transformer)モデルの加速には、スクラッチからのトレーニングや、追加パラメータによる微調整が必要である。
本研究では, (i) 初期層における高密度特徴抽出器, (ii) 圧縮性に優れたシャープネス最小化モデル, (iii) 局所的・グローバル的トークンマージによる高速な訓練自由圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.5024680868164437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token pruning has emerged as an effective solution to speed up the inference
of large Transformer models. However, prior work on accelerating Vision
Transformer (ViT) models requires training from scratch or fine-tuning with
additional parameters, which prevents a simple plug-and-play. To avoid high
training costs during the deployment stage, we present a fast training-free
compression framework enabled by (i) a dense feature extractor in the initial
layers; (ii) a sharpness-minimized model which is more compressible; and (iii)
a local-global token merger that can exploit spatial relationships at various
contexts. We applied our framework to various ViT and DeiT models and achieved
up to 2x reduction in FLOPS and 1.8x speedup in inference throughput with <1%
accuracy loss, while saving two orders of magnitude shorter training times than
existing approaches. Code will be available at
https://github.com/johnheo/fast-compress-vit
- Abstract(参考訳): トケンプルーニングは、大きなトランスフォーマーモデルの推論を高速化する有効なソリューションとして登場した。
しかしながら、視覚トランスフォーマー(vit)モデルを加速する以前の作業では、スクラッチからのトレーニングやパラメータの追加による微調整が必要であり、単純なプラグアンドプレイを防止できる。
展開段階における高いトレーニングコストを回避するため,高速なトレーニングフリー圧縮フレームワークを提案する。
(i)初期層における密集した特徴抽出装置
(ii)圧縮性に優れたシャープネス最小化モデル、及び
(iii)様々な文脈で空間的関係を活用できる局所的グローバルトークン合併。
我々は,様々なvitモデルとdeitモデルに適用し,従来の手法よりも2桁短いトレーニング時間を節約しつつ,推定スループットの最大2倍のフロップ削減と1.8倍の高速化を達成している。
コードはhttps://github.com/johnheo/fast-compress-vitで入手できる。
関連論文リスト
- Improving Interpretation Faithfulness for Vision Transformers [42.86486715574245]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。
ViTは、彼らの焦点が敵の攻撃に対して脆弱であるため、説明の忠実さに関する問題に悩まされる。
本稿では、Fithful ViTs(FViTs)を導入してこれらの問題を緩和するための厳格なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T18:51:21Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。