論文の概要: Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.11540v1
- Date: Mon, 29 Nov 2021 09:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 13:16:12.176374
- Title: Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition
- Title(参考訳): 音声認識用トランス言語モデルの量子化の混合精度
- Authors: Junhao Xu, Shoukang Hu, Jianwei Yu, Xunying Liu, Helen Meng
- Abstract要約: トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
- 参考スコア(独自算出の注目度): 67.95996816744251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art neural language models represented by Transformers are
becoming increasingly complex and expensive for practical applications. Low-bit
deep neural network quantization techniques provides a powerful solution to
dramatically reduce their model size. Current low-bit quantization methods are
based on uniform precision and fail to account for the varying performance
sensitivity at different parts of the system to quantization errors. To this
end, novel mixed precision DNN quantization methods are proposed in this paper.
The optimal local precision settings are automatically learned using two
techniques. The first is based on a quantization sensitivity metric in the form
of Hessian trace weighted quantization perturbation. The second is based on
mixed precision Transformer architecture search. Alternating direction methods
of multipliers (ADMM) are used to efficiently train mixed precision quantized
DNN systems. Experiments conducted on Penn Treebank (PTB) and a Switchboard
corpus trained LF-MMI TDNN system suggest the proposed mixed precision
Transformer quantization techniques achieved model size compression ratios of
up to 16 times over the full precision baseline with no recognition performance
degradation. When being used to compress a larger full precision Transformer LM
with more layers, overall word error rate (WER) reductions up to 1.7% absolute
(18% relative) were obtained.
- Abstract(参考訳): トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
低ビットのディープニューラルネットワーク量子化技術は、モデルサイズを劇的に削減する強力なソリューションを提供する。
現在の低ビット量子化法は、均一な精度に基づいており、量子化誤差に対するシステムの様々な部分のパフォーマンス感度を考慮できない。
そこで本研究では,新しい混合精度DNN量子化法を提案する。
最適な局所精度設定は2つの手法で自動的に学習される。
1つ目は、ヘッセントレース重み付き量子化摂動の形での量子化感度計量に基づいている。
2つ目は混合精密変圧器アーキテクチャ探索に基づくものである。
乗算器の交互方向法(ADMM)は、混合精度の量子化DNNシステムを効率的に訓練するために用いられる。
Penn Treebank (PTB) と Switchboard corpus の LF-MMI TDNN システムを用いて行った実験から,提案した混合精度変換器量子化技術は,認識性能を低下させることなく,全精度ベースライン上で最大16倍のモデルサイズ圧縮比を達成したことが示唆された。
より大きな全精度変換器LMをより多くの層で圧縮するために使用すると、全体的な単語誤り率(WER)は1.7%の絶対値(1%)まで低下する。
関連論文リスト
- Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。
提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-02-20T22:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。