論文の概要: Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2210.07692v1
- Date: Fri, 14 Oct 2022 10:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:25:43.913222
- Title: Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization
- Title(参考訳): FP16-INT8混合後の量子化によるマルチコアMCUにおけるRNN音声の高速化
- Authors: Manuele Rusci, Marco Fariselli, Martin Croome, Francesco Paci, Eric
Flamand
- Abstract要約: リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an optimized methodology to design and deploy Speech
Enhancement (SE) algorithms based on Recurrent Neural Networks (RNNs) on a
state-of-the-art MicroController Unit (MCU), with 1+8 general-purpose RISC-V
cores. To achieve low-latency execution, we propose an optimized software
pipeline interleaving parallel computation of LSTM or GRU recurrent blocks,
featuring vectorized 8-bit integer (INT8) and 16-bit floating-point (FP16)
compute units, with manually-managed memory transfers of model parameters. To
ensure minimal accuracy degradation with respect to the full-precision models,
we propose a novel FP16-INT8 Mixed-Precision Post-Training Quantization (PTQ)
scheme that compresses the recurrent layers to 8-bit while the bit precision of
remaining layers is kept to FP16. Experiments are conducted on multiple LSTM
and GRU based SE models trained on the Valentini dataset, featuring up to 1.24M
parameters. Thanks to the proposed approaches, we speed-up the computation by
up to 4x with respect to the lossless FP16 baselines. Differently from a
uniform 8-bit quantization that degrades the PESQ score by 0.3 on average, the
Mixed-Precision PTQ scheme leads to a low-degradation of only 0.06, while
achieving a 1.4-1.7x memory saving. Thanks to this compression, we cut the
power cost of the external memory by fitting the large models on the limited
on-chip non-volatile memory and we gain a MCU power saving of up to 2.5x by
reducing the supply voltage from 0.8V to 0.65V while still matching the
real-time constraints. Our design results 10x more energy efficient than
state-of-the-art SE solutions deployed on single-core MCUs that make use of
smaller models and quantization-aware training.
- Abstract(参考訳): 本稿では,1+8の汎用RISC-Vコアを持つMCU上で,リカレントニューラルネットワーク(RNN)に基づく音声強調アルゴリズムの設計と展開を行うための最適化手法を提案する。
低レイテンシ実行を実現するために,ベクトル化された8ビット整数 (INT8) と16ビット浮動小数点 (FP16) 演算ユニットを備えたLSTMまたはGRU再帰ブロックの並列計算を手動で管理するソフトウェアパイプラインを提案する。
完全精度モデルに対して最小限の精度劣化を確保するため,FP16に残っていた残層を8ビットに圧縮する新しいFP16-INT8混合精度ポストトライニング量子化(PTQ)方式を提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
提案手法により,損失のないfp16ベースラインに対して最大4倍の高速化が可能となった。
PESQのスコアを平均0.3下げる均一な8ビット量子化とは異なり、Mixed-Precision PTQスキームは、1.4-1.7倍のメモリ節約を実現しつつ、わずか0.06の低劣化をもたらす。
この圧縮により、オンチップの非揮発性メモリに大容量のモデルを取り付けることで外部メモリの電力コストを削減し、MCUの電源電圧を0.8Vから0.65Vに削減し、MCUの省電力化を実現した。
我々の設計は、より小さなモデルと量子化対応のトレーニングを利用するシングルコアのMCUにデプロイされた最先端のSEソリューションよりも10倍エネルギー効率が高い。
関連論文リスト
- MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文 参考訳(メタデータ) (2024-05-28T06:50:58Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。