論文の概要: Fixed-point quantization aware training for on-device keyword-spotting
- arxiv url: http://arxiv.org/abs/2303.02284v1
- Date: Sat, 4 Mar 2023 01:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:32:37.706640
- Title: Fixed-point quantization aware training for on-device keyword-spotting
- Title(参考訳): オンデバイスキーワードスポッティングのための固定点量子化学習
- Authors: Sashank Macha, Om Oza, Alex Escott, Francesco Caliva, Robbie Armitano,
Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu
- Abstract要約: 本稿では,FXP畳み込みキーワードスポッティング(KWS)モデルを学習し,獲得するための新しい手法を提案する。
我々はこの方法論を2つの量子化学習(QAT)技術と組み合わせる。
我々は,KWSモデルの予測性能を損なうことなく,実行時間を68%削減できることを実証した。
- 参考スコア(独自算出の注目度): 4.4488246947396695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fixed-point (FXP) inference has proven suitable for embedded devices with
limited computational resources, and yet model training is continually
performed in floating-point (FLP). FXP training has not been fully explored and
the non-trivial conversion from FLP to FXP presents unavoidable performance
drop. We propose a novel method to train and obtain FXP convolutional
keyword-spotting (KWS) models. We combine our methodology with two
quantization-aware-training (QAT) techniques - squashed weight distribution and
absolute cosine regularization for model parameters, and propose techniques for
extending QAT over transient variables, otherwise neglected by previous
paradigms. Experimental results on the Google Speech Commands v2 dataset show
that we can reduce model precision up to 4-bit with no loss in accuracy.
Furthermore, on an in-house KWS dataset, we show that our 8-bit FXP-QAT models
have a 4-6% improvement in relative false discovery rate at fixed false reject
rate compared to full precision FLP models. During inference we argue that
FXP-QAT eliminates q-format normalization and enables the use of low-bit
accumulators while maximizing SIMD throughput to reduce user perceived latency.
We demonstrate that we can reduce execution time by 68% without compromising
KWS model's predictive performance or requiring model architectural changes.
Our work provides novel findings that aid future research in this area and
enable accurate and efficient models.
- Abstract(参考訳): 固定点(FXP)推論は計算資源が限られている組み込みデバイスに適していることが証明されているが、モデルトレーニングは浮動小数点(FLP)で継続的に行われている。
FXPトレーニングは十分に検討されておらず、FLPからFXPへの非自明な変換は避けられないパフォーマンス低下を示す。
本稿では,fxp畳み込みキーワードスポッティング(kws)モデルを訓練し,取得する新しい手法を提案する。
本手法を2つの量子化アウェアトレーニング(qat)手法と組み合わせることで,モデルパラメータに対する質量分布の分散と絶対コサイン正則化を行い,それまでのパラダイムでは無視されていた過渡変数上でqatを拡張する手法を提案する。
Google Speech Commands v2データセットの実験結果は、精度を損なうことなく、モデル精度を4ビットまで削減できることを示している。
さらに, 社内kwsデータセットでは, 完全精度flpモデルと比較して, 8ビットfxp-qatモデルでは, 相対的偽発見率を4-6%向上させた。
推論中、FXP-QATはq-format正規化を排除し、SIMDスループットを最大化しながら低ビットアキュムレータの使用を可能にする。
kwsモデルの予測性能を損なうことなく,あるいはモデルアーキテクチャの変更を必要とすることなく,実行時間を68%削減できることを実証した。
我々の研究は、この分野における将来の研究を支援し、正確かつ効率的なモデルを可能にする新しい発見を提供する。
関連論文リスト
- P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models [5.69541128149828]
大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
本研究では, 知識蒸留(KD-QAT)を用いた軽量量子化対応微調整技術を提案し, 4ビット量化LDMの性能向上を図る。
我々は, ovフリーズがほぼ浮動小数点精度, すなわちCommonsense Reasoningベンチマークにおいて0.7%未満の精度で精度を低下させることを示す。
論文 参考訳(メタデータ) (2024-03-26T23:51:44Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。