論文の概要: Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets
- arxiv url: http://arxiv.org/abs/2207.06920v1
- Date: Wed, 13 Jul 2022 17:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 08:33:31.143679
- Title: Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets
- Title(参考訳): 埋め込み型チップセットのストリーミングキーワードスポッティングモデルのサブ8ビット量子化
- Authors: Lu Zeng, Sree Hari Krishnan Parthasarathi, Yuzong Liu, Alex Escott,
Santosh Cheekatmalla, Nikko Strom, Shiv Vitaladevuni
- Abstract要約: 本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
- 参考スコア(独自算出の注目度): 7.5195830365852085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel 2-stage sub 8-bit quantization aware training algorithm
for all components of a 250K parameter feedforward, streaming, state-free
keyword spotting model. For the 1st-stage, we adapt a recently proposed
quantization technique using a non-linear transformation with tanh(.) on dense
layer weights. In the 2nd-stage, we use linear quantization methods on the rest
of the network, including other parameters (bias, gain, batchnorm), inputs, and
activations. We conduct large scale experiments, training on 26,000 hours of
de-identified production, far-field and near-field audio data (evaluating on
4,000 hours of data). We organize our results in two embedded chipset settings:
a) with commodity ARM NEON instruction set and 8-bit containers, we present
accuracy, CPU, and memory results using sub 8-bit weights (4, 5, 8-bit) and
8-bit quantization of rest of the network; b) with off-the-shelf neural network
accelerators, for a range of weight bit widths (1 and 5-bit), while presenting
accuracy results, we project reduction in memory utilization. In both
configurations, our results show that the proposed algorithm can achieve: a)
parity with a full floating point model's operating point on a detection error
tradeoff (DET) curve in terms of false detection rate (FDR) at false rejection
rate (FRR); b) significant reduction in compute and memory, yielding up to 3
times improvement in CPU consumption and more than 4 times improvement in
memory consumption.
- Abstract(参考訳): 本研究では,250kパラメータフィードフォワード,ストリーミング,ステートフリーキーワードスポッティングモデルのすべてのコンポーネントに対して,新しい2段サブ8ビット量子化認識学習アルゴリズムを提案する。
第1段階では,tanh(.) を用いた非線形変換を用いて,最近提案する量子化手法を高密度層重みに応用する。
第2段階では、他のパラメータ(bia, gain, batchnorm)、入力、アクティベーションなどを含む、ネットワークの他の部分で線形量子化手法を使用する。
大規模実験を行い、26,000時間の無名生産、遠距離および近距離オーディオデータ(4,000時間データの評価)を訓練した。
結果を2つの組み込みチップセット設定で整理します。
a)コモディティARM NEON命令セットと8ビットコンテナを用いて,ネットワークの他の部分の8ビット重み(4,5,8ビット)と8ビット量子化を用いて,精度,CPU,メモリ結果を示す。
b) 市販のニューラルネットワークアクセラレータを用いて,重みビット幅(1 及び 5 ビット)の範囲において,精度を示すとともに,メモリ使用率の低下を予測できる。
どちらの構成でも,提案アルゴリズムが実現可能であることを示す。
a) 偽検出率(FRR)における偽検出率(FDR)の観点からは、検出誤差トレードオフ(DET)曲線上のフル浮動小数点モデルの動作点を有するパリティ
b) 計算とメモリの大幅な削減、CPU消費の最大3倍の改善、メモリ消費の4倍以上の改善をもたらす。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network
Accelerator with On-Device Speech Recognition [19.949933989959682]
本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化対応トレーニング手法を提案する。
モデルパラメータのサイズを拡大し、単語エラー率を相対的に4-16%削減すると同時に、レイテンシを5%改善しています。
論文 参考訳(メタデータ) (2022-06-30T16:52:07Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Fast Implementation of 4-bit Convolutional Neural Networks for Mobile
Devices [0.8362190332905524]
量子化ニューラルネットワークにおける4ビット行列乗算の効率的な実装について述べる。
また、MIDV-500データセット上でOCR認識のための4ビット量子化ニューラルネットワークを実演する。
その結果、4ビット量子化はモバイルデバイスに完全に適合し、十分な精度と推論時間が得られることがわかった。
論文 参考訳(メタデータ) (2020-09-14T14:48:40Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。