論文の概要: Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning
- arxiv url: http://arxiv.org/abs/2009.08065v4
- Date: Mon, 16 Nov 2020 22:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 07:59:28.201674
- Title: Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning
- Title(参考訳): ハードウェアフレンドリーなブロック構造解析を用いたトランスフォーマーを用いた大規模言語表現
- Authors: Bingbing Li, Zhenglun Kong, Tianyun Zhang, Ji Li, Zhengang Li, Hang
Liu, Caiwen Ding
- Abstract要約: ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
- 参考スコア(独自算出の注目度): 12.761055946548437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large-scale language models have increasingly demonstrated high
accuracy on many natural language processing (NLP) tasks. However, the limited
weight storage and computational speed on hardware platforms have impeded the
popularity of pre-trained models, especially in the era of edge computing. In
this work, we propose an efficient transformer-based large-scale language
representation using hardware-friendly block structure pruning. We incorporate
the reweighted group Lasso into block-structured pruning for optimization.
Besides the significantly reduced weight storage and computation, the proposed
approach achieves high compression rates. Experimental results on different
models (BERT, RoBERTa, and DistilBERT) on the General Language Understanding
Evaluation (GLUE) benchmark tasks show that we achieve up to 5.0x with zero or
minor accuracy degradation on certain task(s). Our proposed method is also
orthogonal to existing compact pre-trained language models such as DistilBERT
using knowledge distillation, since a further 1.79x average compression rate
can be achieved on top of DistilBERT with zero or minor accuracy degradation.
It is suitable to deploy the final compressed model on resource-constrained
edge devices.
- Abstract(参考訳): 事前訓練された大規模言語モデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。
しかし、ハードウェアプラットフォームの重量ストレージと計算速度の制限は、特にエッジコンピューティングの時代において、事前訓練されたモデルの人気を妨げている。
本研究では,ハードウェアフレンドリーなブロック構造プルーニングを用いたトランスフォーマーに基づく大規模言語表現を提案する。
再重み付きグループLassoをブロック構造化プルーニングに組み込んで最適化を行う。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
general language understanding evaluation(glue)ベンチマークタスクにおける異なるモデル(bert、roberta、distilbert)の実験結果から、特定のタスクにおいて0またはマイナーな精度低下で最大5.0倍まで達成できることが分かる。
In this method is orthogonal to existing compact pre-trained language model as DistilBERT using knowledge distillation, because a more 1.79x average compression rate can be achieved on the DistilBERT with zero or minor accuracy degradation。
リソース制約のあるエッジデバイスに最終的な圧縮モデルをデプロイするのに適している。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation [5.8287955127529365]
我々は、Kronecker分解を用いた、最先端のTransformerベースの事前学習言語モデル圧縮の限界を推し進める。
このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。
実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-13T18:19:30Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。