論文の概要: 4-bit Quantization of LSTM-based Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2108.12074v1
- Date: Fri, 27 Aug 2021 00:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:22:32.490718
- Title: 4-bit Quantization of LSTM-based Speech Recognition Models
- Title(参考訳): LSTMに基づく音声認識モデルの4ビット量子化
- Authors: Andrea Fasoli, Chia-Yu Chen, Mauricio Serrano, Xiao Sun, Naigang Wang,
Swagath Venkataramani, George Saon, Xiaodong Cui, Brian Kingsbury, Wei Zhang,
Zolt\'an T\"uske, Kailash Gopalakrishnan
- Abstract要約: LSTMに基づく大規模アーキテクチャの2つのファミリにおける重みとアクティベーションの積極的低精度表現の影響について検討した。
量子化器と初期化器の適切な選択により、最小精度の損失が達成可能であることを示す。
- 参考スコア(独自算出の注目度): 40.614677908909705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the impact of aggressive low-precision representations of
weights and activations in two families of large LSTM-based architectures for
Automatic Speech Recognition (ASR): hybrid Deep Bidirectional LSTM - Hidden
Markov Models (DBLSTM-HMMs) and Recurrent Neural Network - Transducers
(RNN-Ts). Using a 4-bit integer representation, a na\"ive quantization approach
applied to the LSTM portion of these models results in significant Word Error
Rate (WER) degradation. On the other hand, we show that minimal accuracy loss
is achievable with an appropriate choice of quantizers and initializations. In
particular, we customize quantization schemes depending on the local properties
of the network, improving recognition performance while limiting computational
time. We demonstrate our solution on the Switchboard (SWB) and CallHome (CH)
test sets of the NIST Hub5-2000 evaluation. DBLSTM-HMMs trained with 300 or
2000 hours of SWB data achieves $<$0.5% and $<$1% average WER degradation,
respectively. On the more challenging RNN-T models, our quantization strategy
limits degradation in 4-bit inference to 1.3%.
- Abstract(参考訳): 音声認識のための大型LSTMアーキテクチャ(ASR)の2つのファミリー(DBLSTM-HMM)とリカレントニューラルネットワーク-トランスデューサ(RNN-Ts)の重みとアクティベーションの積極的な低精度表現の影響について検討した。
4ビット整数表現を用いて、これらのモデルのLSTM部分に適用したna\\ive Quantizationアプローチにより、ワード誤り率(WER)が大幅に低下する。
一方,最小精度の損失は,量子化と初期化の適切な選択によって達成可能であることを示す。
特に,ネットワークの局所的特性に応じて量子化スキームをカスタマイズし,計算時間を制限しながら認識性能を向上させる。
NIST Hub5-2000 評価の Switchboard (SWB) および CallHome (CH) テストセット上で,本ソリューションを実証する。
300時間または2000時間のSWBデータをトレーニングしたDBLSTM-HMMは、それぞれ$<0.5%と$<1%の平均WER劣化を達成する。
より困難なRNN-Tモデルでは、量子化戦略は4ビット推論の劣化を1.3%に制限する。
関連論文リスト
- LSTM-QGAN: Scalable NISQ Generative Adversarial Network [3.596166341956192]
現在の量子生成敵ネットワーク(QGAN)は、実用規模のデータに苦戦している。
本稿では,QGANアーキテクチャであるLSTM-QGANを提案する。
実験の結果,LSTM-QGANは最先端QGANモデルよりも性能とスケーラビリティを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-03T18:27:15Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - Improving Generalization of Deep Neural Network Acoustic Models with
Length Perturbation and N-best Based Label Smoothing [49.82147684491619]
音声認識(ASR)のためのディープニューラルネットワーク(DNN)音響モデルの一般化を改善する2つの手法を提案する。
長さ摂動 (Longth perturbation) は、音声特徴系列の長さを変更するために音声のフレームをランダムにドロップして挿入するデータ拡張アルゴリズムである。
N-bestに基づくラベルスムーシングは、n-best仮説からノイズラベルが生成される過度な適合を避けるために、トレーニング中にグラウンド・真理ラベルにランダムにノイズを注入する。
論文 参考訳(メタデータ) (2022-03-29T01:40:22Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。