論文の概要: Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network
Accelerator with On-Device Speech Recognition
- arxiv url: http://arxiv.org/abs/2206.15408v1
- Date: Thu, 30 Jun 2022 16:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 17:59:06.748310
- Title: Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network
Accelerator with On-Device Speech Recognition
- Title(参考訳): オンデバイス音声認識を用いた8ビットニューラルネットワークアクセラレータのサブ8ビット量子化学習
- Authors: Kai Zhen, Hieu Duy Nguyen, Raviteja Chinta, Nathan Susanj, Athanasios
Mouchtaris, Tariq Afzal, Ariya Rastrow
- Abstract要約: 本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化対応トレーニング手法を提案する。
モデルパラメータのサイズを拡大し、単語エラー率を相対的に4-16%削減すると同時に、レイテンシを5%改善しています。
- 参考スコア(独自算出の注目度): 19.949933989959682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel sub-8-bit quantization-aware training (S8BQAT) scheme for
8-bit neural network accelerators. Our method is inspired from Lloyd-Max
compression theory with practical adaptations for a feasible computational
overhead during training. With the quantization centroids derived from a 32-bit
baseline, we augment training loss with a Multi-Regional Absolute Cosine
(MRACos) regularizer that aggregates weights towards their nearest centroid,
effectively acting as a pseudo compressor. Additionally, a periodically invoked
hard compressor is introduced to improve the convergence rate by emulating
runtime model weight quantization. We apply S8BQAT on speech recognition tasks
using Recurrent Neural NetworkTransducer (RNN-T) architecture. With S8BQAT, we
are able to increase the model parameter size to reduce the word error rate by
4-16% relatively, while still improving latency by 5%.
- Abstract(参考訳): 本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化学習手法を提案する。
本手法はロイズマックス圧縮理論にインスパイアされ, 訓練中の計算オーバーヘッドの低減を図る。
32ビットのベースラインから導出される量子化セントロイドを用いて、重みを最寄りのセントロイドに集約し、事実上擬似圧縮機として機能するMRACos(Multi-Regional Absolute Cosine)正則化器によるトレーニング損失を増大させる。
さらに、周期的に呼び出されるハードコンプレッサを導入し、実行時モデル重み量子化をエミュレートすることで収束率を向上させる。
recurrent neural networktransducer (rnn-t) アーキテクチャを用いた音声認識タスクにs8bqatを適用する。
s8bqatでは,モデルのパラメータサイズを増加させ,単語誤り率を4~16%削減すると同時に,レイテンシを5%向上させることができた。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Sub-8-bit quantization for on-device speech recognition: a
regularization-free approach [19.84792318335999]
General Quantizer (GQ) は、自己調整可能なセントロイドを持つ正規化フリーの「ソフトからハード」圧縮機構である。
GQ は RNN-T と Conformer の両方を sub-8-bit に圧縮でき、いくつかの RNN-T 層では高速で正確な推論のために 1-bit に圧縮できる。
論文 参考訳(メタデータ) (2022-10-17T15:42:26Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - 4-bit Conformer with Native Quantization Aware Training for Speech
Recognition [13.997832593421577]
そこで本研究では,ネイティブ整数演算を応用し,学習と推論の両方を効果的に最適化する,ネイティブ量子化を考慮した4ビットASRモデルを提案する。
提案した量子化手法を評価するために,最先端のコンフォーマーベースASRモデルに関する2つの実験を行った。
大規模データセットでトレーニングされた実用的なASRシステムにおいて、4ビット量子化が実現可能であることを初めて調査し明らかにした。
論文 参考訳(メタデータ) (2022-03-29T23:57:15Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - EasyQuant: Post-training Quantization via Scale Optimization [15.443708111143412]
8ビットの量子化は、様々なディープラーニングアプリケーションにおけるネットワーク推論の高速化に広く応用されている。
量子化法には、トレーニングベース量子化と後学習量子化の2種類がある。
論文 参考訳(メタデータ) (2020-06-30T10:43:02Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。