論文の概要: Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.11438v1
- Date: Mon, 29 Nov 2021 12:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 13:16:43.259379
- Title: Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition
- Title(参考訳): 音声認識のためのニューラルネットワーク言語モデルの混合精度低ビット量子化
- Authors: Junhao Xu, Jianwei Yu, Shoukang Hu, Xunying Liu, Helen Meng
- Abstract要約: 長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
- 参考スコア(独自算出の注目度): 67.95996816744251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art language models (LMs) represented by long-short term memory
recurrent neural networks (LSTM-RNNs) and Transformers are becoming
increasingly complex and expensive for practical applications. Low-bit neural
network quantization provides a powerful solution to dramatically reduce their
model size. Current quantization methods are based on uniform precision and
fail to account for the varying performance sensitivity at different parts of
LMs to quantization errors. To this end, novel mixed precision neural network
LM quantization methods are proposed in this paper. The optimal local precision
choices for LSTM-RNN and Transformer based neural LMs are automatically learned
using three techniques. The first two approaches are based on quantization
sensitivity metrics in the form of either the KL-divergence measured between
full precision and quantized LMs, or Hessian trace weighted quantization
perturbation that can be approximated efficiently using matrix free techniques.
The third approach is based on mixed precision neural architecture search. In
order to overcome the difficulty in using gradient descent methods to directly
estimate discrete quantized weights, alternating direction methods of
multipliers (ADMM) are used to efficiently train quantized LMs. Experiments
were conducted on state-of-the-art LF-MMI CNN-TDNN systems featuring speed
perturbation, i-Vector and learning hidden unit contribution (LHUC) based
speaker adaptation on two tasks: Switchboard telephone speech and AMI meeting
transcription. The proposed mixed precision quantization techniques achieved
"lossless" quantization on both tasks, by producing model size compression
ratios of up to approximately 16 times over the full precision LSTM and
Transformer baseline LMs, while incurring no statistically significant word
error rate increase.
- Abstract(参考訳): 長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
低ビットニューラルネットワーク量子化は、モデルサイズを劇的に削減する強力なソリューションを提供する。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
そこで本研究では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
LSTM-RNNとTransformerベースのニューラルLMの最適局所精度選択は、3つの手法を用いて自動的に学習される。
最初の2つのアプローチは、完全精度と量子化LM間で測定されたKL偏差の形での量子化感度測定と、行列フリー手法で効率的に近似できるヘッセントレース重み付き量子化摂動に基づいている。
第3のアプローチは、混合精度ニューラルネットワークアーキテクチャ探索に基づいている。
離散量子化重量を直接推定するために勾配降下法を用いることの難しさを克服するために、乗算器の交互方向法(ADMM)を用いて量子化LMを効率的に訓練する。
高速摂動, i-Vector, およびLHUCに基づく話者適応機能を備えた最新のLF-MMI CNN-TDNNシステムの実験を行った。
提案した混合精度量子化技術は,全精度LSTMおよびトランスフォーマーベースラインLMのモデルサイズ圧縮比を最大16倍にし,統計的に有意な単語誤り率の増加は生じなかった。
関連論文リスト
- SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。