論文の概要: A Fast Post-Training Pruning Framework for Transformers
- arxiv url: http://arxiv.org/abs/2204.09656v1
- Date: Tue, 29 Mar 2022 07:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:47:34.650131
- Title: A Fast Post-Training Pruning Framework for Transformers
- Title(参考訳): 変圧器の高速後処理フレームワーク
- Authors: Woosuk Kwon, Sehoon Kim, Michael W. Mahoney, Joseph Hassoun, Kurt
Keutzer, Amir Gholami
- Abstract要約: プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 74.59556951906468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning is an effective way to reduce the huge inference cost of large
Transformer models. However, prior work on model pruning requires retraining
the model. This can add high cost and complexity to model deployment, making it
difficult to use in many practical situations. To address this, we propose a
fast post-training pruning framework for Transformers that does not require any
retraining. Given a resource constraint and a sample dataset, our framework
automatically prunes the Transformer model using structured sparsity methods.
To retain high accuracy without retraining, we introduce three novel
techniques: (i) a lightweight mask search algorithm that finds which heads and
filters to prune based on the Fisher information; (ii) mask rearrangement that
complements the search algorithm; and (iii) mask tuning that reconstructs the
output activations for each layer. We apply our method to BERT-BASE and
DistilBERT, and we evaluate its effectiveness on GLUE and SQuAD benchmarks. Our
framework achieves up to 2.0x reduction in FLOPs and 1.56x speedup in inference
latency, while maintaining < 1% loss in accuracy. Importantly, our framework
prunes Transformers in less than 3 minutes on a single GPU, which is over two
orders of magnitude faster than existing pruning approaches that retrain. Our
code is publicly available.
- Abstract(参考訳): プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
しかしながら、モデルプルーニングの事前作業には、モデルの再トレーニングが必要となる。
これにより、モデルデプロイメントにコストと複雑さが増し、多くの実践的な状況での使用が困難になります。
そこで本研究では,再学習を必要としないトランスフォーマーのための高速ポストトレーニングプルーニングフレームワークを提案する。
リソース制約とサンプルデータセットが与えられると、フレームワークは構造化スパーシティメソッドを使用して自動的にトランスフォーマモデルをプルする。
再トレーニングせずに高い精度を維持するために,我々は3つの新しい手法を紹介する。
(i)フィッシャー情報に基づいてどのヘッドとフィルターをプルーネにするかを検索する軽量マスク検索アルゴリズム
(ii)探索アルゴリズムを補完するマスク配置、及び
(iii)各レイヤの出力アクティベーションを再構築するマスクチューニング。
本手法をBERT-BASEおよびDistilBERTに適用し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
提案フレームワークは, FLOPの最大2.0倍, 推論遅延の1.56倍の高速化を実現し, 精度1%の損失を維持した。
重要なことは、我々のフレームワークはトランスフォーマーを1つのGPU上で3分未満で実行し、これは再トレーニングする既存のプルーニングアプローチよりも2桁以上高速である。
私たちのコードは公開されています。
関連論文リスト
- Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Finding Fast Transformers: One-Shot Neural Architecture Search by
Component Composition [11.6409723227448]
トランスフォーマーベースのモデルは、自然言語処理における多くのタスクにおいて最先端の結果を得た。
モデル品質を維持しつつ,高速なモデル探索を行うアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-15T23:12:25Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。