論文の概要: Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2210.07692v1
- Date: Fri, 14 Oct 2022 10:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-17 18:25:43.913222
- Title: Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization
- Title(参考訳): FP16-INT8混合後の量子化によるマルチコアMCUにおけるRNN音声の高速化
- Authors: Manuele Rusci, Marco Fariselli, Martin Croome, Francesco Paci, Eric
Flamand
- Abstract要約: リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an optimized methodology to design and deploy Speech
Enhancement (SE) algorithms based on Recurrent Neural Networks (RNNs) on a
state-of-the-art MicroController Unit (MCU), with 1+8 general-purpose RISC-V
cores. To achieve low-latency execution, we propose an optimized software
pipeline interleaving parallel computation of LSTM or GRU recurrent blocks,
featuring vectorized 8-bit integer (INT8) and 16-bit floating-point (FP16)
compute units, with manually-managed memory transfers of model parameters. To
ensure minimal accuracy degradation with respect to the full-precision models,
we propose a novel FP16-INT8 Mixed-Precision Post-Training Quantization (PTQ)
scheme that compresses the recurrent layers to 8-bit while the bit precision of
remaining layers is kept to FP16. Experiments are conducted on multiple LSTM
and GRU based SE models trained on the Valentini dataset, featuring up to 1.24M
parameters. Thanks to the proposed approaches, we speed-up the computation by
up to 4x with respect to the lossless FP16 baselines. Differently from a
uniform 8-bit quantization that degrades the PESQ score by 0.3 on average, the
Mixed-Precision PTQ scheme leads to a low-degradation of only 0.06, while
achieving a 1.4-1.7x memory saving. Thanks to this compression, we cut the
power cost of the external memory by fitting the large models on the limited
on-chip non-volatile memory and we gain a MCU power saving of up to 2.5x by
reducing the supply voltage from 0.8V to 0.65V while still matching the
real-time constraints. Our design results 10x more energy efficient than
state-of-the-art SE solutions deployed on single-core MCUs that make use of
smaller models and quantization-aware training.
- Abstract(参考訳): 本稿では,1+8の汎用RISC-Vコアを持つMCU上で,リカレントニューラルネットワーク(RNN)に基づく音声強調アルゴリズムの設計と展開を行うための最適化手法を提案する。
低レイテンシ実行を実現するために,ベクトル化された8ビット整数 (INT8) と16ビット浮動小数点 (FP16) 演算ユニットを備えたLSTMまたはGRU再帰ブロックの並列計算を手動で管理するソフトウェアパイプラインを提案する。
完全精度モデルに対して最小限の精度劣化を確保するため,FP16に残っていた残層を8ビットに圧縮する新しいFP16-INT8混合精度ポストトライニング量子化(PTQ)方式を提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
提案手法により,損失のないfp16ベースラインに対して最大4倍の高速化が可能となった。
PESQのスコアを平均0.3下げる均一な8ビット量子化とは異なり、Mixed-Precision PTQスキームは、1.4-1.7倍のメモリ節約を実現しつつ、わずか0.06の低劣化をもたらす。
この圧縮により、オンチップの非揮発性メモリに大容量のモデルを取り付けることで外部メモリの電力コストを削減し、MCUの電源電圧を0.8Vから0.65Vに削減し、MCUの省電力化を実現した。
我々の設計は、より小さなモデルと量子化対応のトレーニングを利用するシングルコアのMCUにデプロイされた最先端のSEソリューションよりも10倍エネルギー効率が高い。
関連論文リスト
- BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - BAPS: A Fine-Grained Low-Precision Scheme for Softmax in Attention via Block-Aware Precision reScaling [12.43240392025487]
特定の8ビット浮動小数点フォーマット (HiF8) とブロック対応のソフトマックス再スケーリングを利用した新しい低精度ワークフローを提案する。
我々のアルゴリズムの革新は、モデルの精度を著しく損なうことなく、低精度のソフトマックスを実現する。
我々の研究は、チップ面積を増大させることなく、エンドツーエンドの推論スループットを2倍にする方法を開拓する。
論文 参考訳(メタデータ) (2026-02-02T13:12:18Z) - ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error [3.281844093101284]
大規模なMixture-of-Experts(MoE)モデルのトレーニングは、極端な計算とメモリ要求のため、計算的に禁じられている。
FP8-Flow-MoEは,スケールアウェア計算と融合したFP8演算子を備えた量子化一貫性FP8中心のデータフローを特徴とする学習レシピである。
論文 参考訳(メタデータ) (2025-11-04T06:36:59Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文 参考訳(メタデータ) (2024-05-28T06:50:58Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。