論文の概要: Sub-8-bit quantization for on-device speech recognition: a
regularization-free approach
- arxiv url: http://arxiv.org/abs/2210.09188v1
- Date: Mon, 17 Oct 2022 15:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 22:15:31.329931
- Title: Sub-8-bit quantization for on-device speech recognition: a
regularization-free approach
- Title(参考訳): オンデバイス音声認識のためのサブ8ビット量子化:正規化フリーアプローチ
- Authors: Kai Zhen, Martin Radfar, Hieu Duy Nguyen, Grant P. Strimel, Nathan
Susanj, Athanasios Mouchtaris
- Abstract要約: General Quantizer (GQ) は、自己調整可能なセントロイドを持つ正規化フリーの「ソフトからハード」圧縮機構である。
GQ は RNN-T と Conformer の両方を sub-8-bit に圧縮でき、いくつかの RNN-T 層では高速で正確な推論のために 1-bit に圧縮できる。
- 参考スコア(独自算出の注目度): 19.84792318335999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For on-device automatic speech recognition (ASR), quantization aware training
(QAT) is ubiquitous to achieve the trade-off between model predictive
performance and efficiency. Among existing QAT methods, one major drawback is
that the quantization centroids have to be predetermined and fixed. To overcome
this limitation, we introduce a regularization-free, "soft-to-hard" compression
mechanism with self-adjustable centroids in a mu-Law constrained space,
resulting in a simpler yet more versatile quantization scheme, called General
Quantizer (GQ). We apply GQ to ASR tasks using Recurrent Neural Network
Transducer (RNN-T) and Conformer architectures on both LibriSpeech and
de-identified far-field datasets. Without accuracy degradation, GQ can compress
both RNN-T and Conformer into sub-8-bit, and for some RNN-T layers, to 1-bit
for fast and accurate inference. We observe a 30.73% memory footprint saving
and 31.75% user-perceived latency reduction compared to 8-bit QAT via physical
device benchmarking.
- Abstract(参考訳): オンデバイス自動音声認識(ASR)では、量子化対応訓練(QAT)がユビキタスであり、モデル予測性能と効率のトレードオフを実現する。
既存のQAT法の中で大きな欠点は、量子化セントロイドを予め決めて固定する必要があることである。
この制限を克服するために、ミューロー制約空間に自己調整可能なセントロイドを持つ正規化フリーの「ソフト・トゥ・ハード」圧縮機構を導入し、よりシンプルで多用途な量子化方式、General Quantizer (GQ) を提案する。
リカレントニューラルネットワークトランスデューサ(RNN-T)とコンバータアーキテクチャをLibriSpeechとde-identified Far-fieldデータセットの両方に適用し、ASRタスクにGQを適用する。
精度の低下なしに、GQ は RNN-T と Conformer の両方を sub-8-bit に圧縮でき、いくつかの RNN-T 層では高速で正確な推論のために 1-bit に圧縮できる。
物理デバイスベンチマークによる8ビットQATと比較して,30.73%のメモリフットプリントと31.75%のレイテンシ削減が観察された。
関連論文リスト
- Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks [6.495218751128902]
我々は,人的負担を伴わずに,異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
QPLは、量子化スキームのビット幅を再パラメータ化することで、混合精度ポリシーを学習する最初の方法である。
QAGは、任意のアーキテクチャを手動で介入することなく、対応する量子化アーキテクチャに変換するように設計されている。
論文 参考訳(メタデータ) (2023-04-07T11:14:21Z) - Convolutional Neural Networks Quantization with Attention [1.0312968200748118]
二重段Squeeze-and-Threshold法(二重段ST)を提案する。
注意機構を使ってネットワークを定量化し、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-09-30T08:48:31Z) - Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network
Accelerator with On-Device Speech Recognition [19.949933989959682]
本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化対応トレーニング手法を提案する。
モデルパラメータのサイズを拡大し、単語エラー率を相対的に4-16%削減すると同時に、レイテンシを5%改善しています。
論文 参考訳(メタデータ) (2022-06-30T16:52:07Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Quantization-Guided Training for Compact TinyML Models [8.266286436571887]
最適化された低ビット精度目標に対してDNNトレーニングを導くためのQGT(Quantization Guided Training)手法を提案する。
QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を促進する。
論文 参考訳(メタデータ) (2021-03-10T18:06:05Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。