論文の概要: Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.11540v1
- Date: Mon, 29 Nov 2021 09:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 13:16:12.176374
- Title: Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition
- Title(参考訳): 音声認識用トランス言語モデルの量子化の混合精度
- Authors: Junhao Xu, Shoukang Hu, Jianwei Yu, Xunying Liu, Helen Meng
- Abstract要約: トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
- 参考スコア(独自算出の注目度): 67.95996816744251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art neural language models represented by Transformers are
becoming increasingly complex and expensive for practical applications. Low-bit
deep neural network quantization techniques provides a powerful solution to
dramatically reduce their model size. Current low-bit quantization methods are
based on uniform precision and fail to account for the varying performance
sensitivity at different parts of the system to quantization errors. To this
end, novel mixed precision DNN quantization methods are proposed in this paper.
The optimal local precision settings are automatically learned using two
techniques. The first is based on a quantization sensitivity metric in the form
of Hessian trace weighted quantization perturbation. The second is based on
mixed precision Transformer architecture search. Alternating direction methods
of multipliers (ADMM) are used to efficiently train mixed precision quantized
DNN systems. Experiments conducted on Penn Treebank (PTB) and a Switchboard
corpus trained LF-MMI TDNN system suggest the proposed mixed precision
Transformer quantization techniques achieved model size compression ratios of
up to 16 times over the full precision baseline with no recognition performance
degradation. When being used to compress a larger full precision Transformer LM
with more layers, overall word error rate (WER) reductions up to 1.7% absolute
(18% relative) were obtained.
- Abstract(参考訳): トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
低ビットのディープニューラルネットワーク量子化技術は、モデルサイズを劇的に削減する強力なソリューションを提供する。
現在の低ビット量子化法は、均一な精度に基づいており、量子化誤差に対するシステムの様々な部分のパフォーマンス感度を考慮できない。
そこで本研究では,新しい混合精度DNN量子化法を提案する。
最適な局所精度設定は2つの手法で自動的に学習される。
1つ目は、ヘッセントレース重み付き量子化摂動の形での量子化感度計量に基づいている。
2つ目は混合精密変圧器アーキテクチャ探索に基づくものである。
乗算器の交互方向法(ADMM)は、混合精度の量子化DNNシステムを効率的に訓練するために用いられる。
Penn Treebank (PTB) と Switchboard corpus の LF-MMI TDNN システムを用いて行った実験から,提案した混合精度変換器量子化技術は,認識性能を低下させることなく,全精度ベースライン上で最大16倍のモデルサイズ圧縮比を達成したことが示唆された。
より大きな全精度変換器LMをより多くの層で圧縮するために使用すると、全体的な単語誤り率(WER)は1.7%の絶対値(1%)まで低下する。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。