論文の概要: Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers
- arxiv url: http://arxiv.org/abs/2008.05124v1
- Date: Wed, 12 Aug 2020 06:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:47:36.552526
- Title: Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers
- Title(参考訳): 小型エッジマイクロコントローラのための混合低精度量子化の自動化
- Authors: Manuele Rusci, Marco Fariselli, Alessandro Capotondi, Luca Benini
- Abstract要約: 本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
- 参考スコア(独自算出の注目度): 76.30674794049293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The severe on-chip memory limitations are currently preventing the deployment
of the most accurate Deep Neural Network (DNN) models on tiny MicroController
Units (MCUs), even if leveraging an effective 8-bit quantization scheme. To
tackle this issue, in this paper we present an automated mixed-precision
quantization flow based on the HAQ framework but tailored for the memory and
computational characteristics of MCU devices. Specifically, a Reinforcement
Learning agent searches for the best uniform quantization levels, among 2, 4, 8
bits, of individual weight and activation tensors, under the tight constraints
on RAM and FLASH embedded memory sizes. We conduct an experimental analysis on
MobileNetV1, MobileNetV2 and MNasNet models for Imagenet classification.
Concerning the quantization policy search, the RL agent selects quantization
policies that maximize the memory utilization. Given an MCU-class memory bound
of 2MB for weight-only quantization, the compressed models produced by the
mixed-precision engine result as accurate as the state-of-the-art solutions
quantized with a non-uniform function, which is not tailored for CPUs featuring
integer-only arithmetic. This denotes the viability of uniform quantization,
required for MCU deployments, for deep weights compression. When also limiting
the activation memory budget to 512kB, the best MobileNetV1 model scores up to
68.4% on Imagenet thanks to the found quantization policy, resulting to be 4%
more accurate than the other 8-bit networks fitting the same memory
constraints.
- Abstract(参考訳): オンチップメモリの厳しい制限は、たとえ効果的な8ビット量子化スキームを利用したとしても、現在最も正確なディープニューラルネットワーク(DNN)モデルのマイクロコントローラユニット(MCU)への展開を妨げている。
この問題に対処するために,本論文では,MCUデバイスのメモリと計算特性に合わせて,HAQフレームワークに基づく自動混合精度量子化フローを提案する。
特に、強化学習エージェントは、ramおよびフラッシュ埋め込みメモリサイズの厳しい制約下で、個々の重みおよび活性化テンソルの2,4,8ビットのうち、最適な一様量子化レベルを探索する。
画像ネット分類のためのMobileNetV1,MobileNetV2,MNasNetモデルの実験的解析を行う。
量子化ポリシー探索については、RLエージェントがメモリ利用を最大化する量子化ポリシーを選択する。
重みのみの量子化のために2MBのMCUクラスのメモリバウンドが与えられた場合、混合精度エンジンによって生成された圧縮モデルは、非一様関数で量子化された最先端のソリューションと同程度に正確である。
これは、深い重みの圧縮のためにMCUデプロイメントに必要な均一な量子化が可能であることを示す。
また、アクティベーションメモリ予算を512kbに制限すると、最良のmobilenetv1モデルは、検出された量子化ポリシーによりimagenet上で最大68.4%のスコアを獲得し、同じメモリ制約を満たす他の8ビットネットワークよりも4%精度が向上する。
関連論文リスト
- FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-16T23:38:35Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。