論文の概要: A Fast Post-Training Pruning Framework for Transformers
- arxiv url: http://arxiv.org/abs/2204.09656v1
- Date: Tue, 29 Mar 2022 07:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:47:34.650131
- Title: A Fast Post-Training Pruning Framework for Transformers
- Title(参考訳): 変圧器の高速後処理フレームワーク
- Authors: Woosuk Kwon, Sehoon Kim, Michael W. Mahoney, Joseph Hassoun, Kurt
Keutzer, Amir Gholami
- Abstract要約: プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 74.59556951906468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning is an effective way to reduce the huge inference cost of large
Transformer models. However, prior work on model pruning requires retraining
the model. This can add high cost and complexity to model deployment, making it
difficult to use in many practical situations. To address this, we propose a
fast post-training pruning framework for Transformers that does not require any
retraining. Given a resource constraint and a sample dataset, our framework
automatically prunes the Transformer model using structured sparsity methods.
To retain high accuracy without retraining, we introduce three novel
techniques: (i) a lightweight mask search algorithm that finds which heads and
filters to prune based on the Fisher information; (ii) mask rearrangement that
complements the search algorithm; and (iii) mask tuning that reconstructs the
output activations for each layer. We apply our method to BERT-BASE and
DistilBERT, and we evaluate its effectiveness on GLUE and SQuAD benchmarks. Our
framework achieves up to 2.0x reduction in FLOPs and 1.56x speedup in inference
latency, while maintaining < 1% loss in accuracy. Importantly, our framework
prunes Transformers in less than 3 minutes on a single GPU, which is over two
orders of magnitude faster than existing pruning approaches that retrain. Our
code is publicly available.
- Abstract(参考訳): プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
しかしながら、モデルプルーニングの事前作業には、モデルの再トレーニングが必要となる。
これにより、モデルデプロイメントにコストと複雑さが増し、多くの実践的な状況での使用が困難になります。
そこで本研究では,再学習を必要としないトランスフォーマーのための高速ポストトレーニングプルーニングフレームワークを提案する。
リソース制約とサンプルデータセットが与えられると、フレームワークは構造化スパーシティメソッドを使用して自動的にトランスフォーマモデルをプルする。
再トレーニングせずに高い精度を維持するために,我々は3つの新しい手法を紹介する。
(i)フィッシャー情報に基づいてどのヘッドとフィルターをプルーネにするかを検索する軽量マスク検索アルゴリズム
(ii)探索アルゴリズムを補完するマスク配置、及び
(iii)各レイヤの出力アクティベーションを再構築するマスクチューニング。
本手法をBERT-BASEおよびDistilBERTに適用し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
提案フレームワークは, FLOPの最大2.0倍, 推論遅延の1.56倍の高速化を実現し, 精度1%の損失を維持した。
重要なことは、我々のフレームワークはトランスフォーマーを1つのGPU上で3分未満で実行し、これは再トレーニングする既存のプルーニングアプローチよりも2桁以上高速である。
私たちのコードは公開されています。
関連論文リスト
- Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-19T15:22:25Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Finding Fast Transformers: One-Shot Neural Architecture Search by
Component Composition [11.6409723227448]
トランスフォーマーベースのモデルは、自然言語処理における多くのタスクにおいて最先端の結果を得た。
モデル品質を維持しつつ,高速なモデル探索を行うアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-15T23:12:25Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。