論文の概要: Fixed-point quantization aware training for on-device keyword-spotting
- arxiv url: http://arxiv.org/abs/2303.02284v1
- Date: Sat, 4 Mar 2023 01:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:32:37.706640
- Title: Fixed-point quantization aware training for on-device keyword-spotting
- Title(参考訳): オンデバイスキーワードスポッティングのための固定点量子化学習
- Authors: Sashank Macha, Om Oza, Alex Escott, Francesco Caliva, Robbie Armitano,
Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu
- Abstract要約: 本稿では,FXP畳み込みキーワードスポッティング(KWS)モデルを学習し,獲得するための新しい手法を提案する。
我々はこの方法論を2つの量子化学習(QAT)技術と組み合わせる。
我々は,KWSモデルの予測性能を損なうことなく,実行時間を68%削減できることを実証した。
- 参考スコア(独自算出の注目度): 4.4488246947396695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fixed-point (FXP) inference has proven suitable for embedded devices with
limited computational resources, and yet model training is continually
performed in floating-point (FLP). FXP training has not been fully explored and
the non-trivial conversion from FLP to FXP presents unavoidable performance
drop. We propose a novel method to train and obtain FXP convolutional
keyword-spotting (KWS) models. We combine our methodology with two
quantization-aware-training (QAT) techniques - squashed weight distribution and
absolute cosine regularization for model parameters, and propose techniques for
extending QAT over transient variables, otherwise neglected by previous
paradigms. Experimental results on the Google Speech Commands v2 dataset show
that we can reduce model precision up to 4-bit with no loss in accuracy.
Furthermore, on an in-house KWS dataset, we show that our 8-bit FXP-QAT models
have a 4-6% improvement in relative false discovery rate at fixed false reject
rate compared to full precision FLP models. During inference we argue that
FXP-QAT eliminates q-format normalization and enables the use of low-bit
accumulators while maximizing SIMD throughput to reduce user perceived latency.
We demonstrate that we can reduce execution time by 68% without compromising
KWS model's predictive performance or requiring model architectural changes.
Our work provides novel findings that aid future research in this area and
enable accurate and efficient models.
- Abstract(参考訳): 固定点(FXP)推論は計算資源が限られている組み込みデバイスに適していることが証明されているが、モデルトレーニングは浮動小数点(FLP)で継続的に行われている。
FXPトレーニングは十分に検討されておらず、FLPからFXPへの非自明な変換は避けられないパフォーマンス低下を示す。
本稿では,fxp畳み込みキーワードスポッティング(kws)モデルを訓練し,取得する新しい手法を提案する。
本手法を2つの量子化アウェアトレーニング(qat)手法と組み合わせることで,モデルパラメータに対する質量分布の分散と絶対コサイン正則化を行い,それまでのパラダイムでは無視されていた過渡変数上でqatを拡張する手法を提案する。
Google Speech Commands v2データセットの実験結果は、精度を損なうことなく、モデル精度を4ビットまで削減できることを示している。
さらに, 社内kwsデータセットでは, 完全精度flpモデルと比較して, 8ビットfxp-qatモデルでは, 相対的偽発見率を4-6%向上させた。
推論中、FXP-QATはq-format正規化を排除し、SIMDスループットを最大化しながら低ビットアキュムレータの使用を可能にする。
kwsモデルの予測性能を損なうことなく,あるいはモデルアーキテクチャの変更を必要とすることなく,実行時間を68%削減できることを実証した。
我々の研究は、この分野における将来の研究を支援し、正確かつ効率的なモデルを可能にする新しい発見を提供する。
関連論文リスト
- Post-Training Quantization with Low-precision Minifloats and Integers on
FPGAs [41.10746835088149]
ポストトレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの精度を低下させる。
近年,8ビット浮動小数点量子化(FP8)をPTQの文脈でモデル推論に適用する研究が進められている。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit
Diffusion Models [22.719395850773978]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers [8.99827064269123]
我々はtextbfAdaptive textbfSparsity textbfLevel (textbfPALS) を用いたtextbfPruning を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。