論文の概要: 4-bit Conformer with Native Quantization Aware Training for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2203.15952v1
- Date: Tue, 29 Mar 2022 23:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:23:45.737686
- Title: 4-bit Conformer with Native Quantization Aware Training for Speech
Recognition
- Title(参考訳): 音声認識のためのネイティブ量子化対応4ビットコンバータ
- Authors: Shaojin Ding, Phoenix Meadowlark, Yanzhang He, Lukasz Lew, Shivani
Agrawal, Oleg Rybakov
- Abstract要約: そこで本研究では,ネイティブ整数演算を応用し,学習と推論の両方を効果的に最適化する,ネイティブ量子化を考慮した4ビットASRモデルを提案する。
提案した量子化手法を評価するために,最先端のコンフォーマーベースASRモデルに関する2つの実験を行った。
大規模データセットでトレーニングされた実用的なASRシステムにおいて、4ビット量子化が実現可能であることを初めて調査し明らかにした。
- 参考スコア(独自算出の注目度): 13.997832593421577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the latency and model size has always been a significant research
problem for live Automatic Speech Recognition (ASR) application scenarios.
Along this direction, model quantization has become an increasingly popular
approach to compress neural networks and reduce computation cost. Most of the
existing practical ASR systems apply post-training 8-bit quantization. To
achieve a higher compression rate without introducing additional performance
regression, in this study, we propose to develop 4-bit ASR models with native
quantization aware training, which leverages native integer operations to
effectively optimize both training and inference. We conducted two experiments
on state-of-the-art Conformer-based ASR models to evaluate our proposed
quantization technique. First, we explored the impact of different precisions
for both weight and activation quantization on the LibriSpeech dataset, and
obtained a lossless 4-bit Conformer model with 7.7x size reduction compared to
the float32 model. Following this, we for the first time investigated and
revealed the viability of 4-bit quantization on a practical ASR system that is
trained with large-scale datasets, and produced a lossless Conformer ASR model
with mixed 4-bit and 8-bit weights that has 5x size reduction compared to the
float32 model.
- Abstract(参考訳): レイテンシとモデルサイズを減らすことは、ライブ自動音声認識(ASR)アプリケーションシナリオにおいて、常に重要な研究課題である。
この方向に沿って、モデル量子化は、ニューラルネットワークを圧縮し、計算コストを削減するための一般的なアプローチになりつつある。
既存のasrシステムのほとんどは、トレーニング後の8ビット量子化を適用する。
そこで本研究では,高い圧縮率を実現するために,ネイティブ量子化認識トレーニングを用いた4ビットasrモデルを開発し,ネイティブ整数演算を活用し,学習と推論の両方を効果的に最適化する。
提案手法を評価するために, 最先端コンフォーマーベースASRモデルに関する2つの実験を行った。
まず,librispeechデータセットにおける重みとアクティベーションの量子化の精度の違いについて検討し,float32モデルと比較して7.7倍サイズ削減したロスレス4ビットコンフォーメータモデルを得た。
そこで本研究では,大規模データセットで学習した実用asrシステムにおける4ビット量子化の有効性を初めて検証し,フロート32モデルと比較して5倍の大きさの4ビットと8ビットの重みを混合したロスレスコンフォーメータasrモデルを作成した。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network
Accelerator with On-Device Speech Recognition [19.949933989959682]
本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化対応トレーニング手法を提案する。
モデルパラメータのサイズを拡大し、単語エラー率を相対的に4-16%削減すると同時に、レイテンシを5%改善しています。
論文 参考訳(メタデータ) (2022-06-30T16:52:07Z) - A High-Performance Adaptive Quantization Approach for Edge CNN
Applications [0.225596179391365]
最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端のモデル精度を推し進めている。
精度の向上は、かなりのメモリ帯域幅とストレージ要求のコストが伴う。
本稿では,偏りのあるアクティベーションの問題を解決するための適応型高性能量子化法を提案する。
論文 参考訳(メタデータ) (2021-07-18T07:49:18Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。