Fugu-MT 論文翻訳(概要): Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers

論文の概要: Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers

arxiv url: http://arxiv.org/abs/2008.05124v1
Date: Wed, 12 Aug 2020 06:09:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 04:47:36.552526
Title: Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers
Title（参考訳）: 小型エッジマイクロコントローラのための混合低精度量子化の自動化
Authors: Manuele Rusci, Marco Fariselli, Alessandro Capotondi, Luca Benini
Abstract要約: 本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
参考スコア（独自算出の注目度）: 76.30674794049293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The severe on-chip memory limitations are currently preventing the deployment of the most accurate Deep Neural Network (DNN) models on tiny MicroController Units (MCUs), even if leveraging an effective 8-bit quantization scheme. To tackle this issue, in this paper we present an automated mixed-precision quantization flow based on the HAQ framework but tailored for the memory and computational characteristics of MCU devices. Specifically, a Reinforcement Learning agent searches for the best uniform quantization levels, among 2, 4, 8 bits, of individual weight and activation tensors, under the tight constraints on RAM and FLASH embedded memory sizes. We conduct an experimental analysis on MobileNetV1, MobileNetV2 and MNasNet models for Imagenet classification. Concerning the quantization policy search, the RL agent selects quantization policies that maximize the memory utilization. Given an MCU-class memory bound of 2MB for weight-only quantization, the compressed models produced by the mixed-precision engine result as accurate as the state-of-the-art solutions quantized with a non-uniform function, which is not tailored for CPUs featuring integer-only arithmetic. This denotes the viability of uniform quantization, required for MCU deployments, for deep weights compression. When also limiting the activation memory budget to 512kB, the best MobileNetV1 model scores up to 68.4% on Imagenet thanks to the found quantization policy, resulting to be 4% more accurate than the other 8-bit networks fitting the same memory constraints.
Abstract（参考訳）: オンチップメモリの厳しい制限は、たとえ効果的な8ビット量子化スキームを利用したとしても、現在最も正確なディープニューラルネットワーク(DNN)モデルのマイクロコントローラユニット(MCU)への展開を妨げている。この問題に対処するために,本論文では,MCUデバイスのメモリと計算特性に合わせて,HAQフレームワークに基づく自動混合精度量子化フローを提案する。特に、強化学習エージェントは、ramおよびフラッシュ埋め込みメモリサイズの厳しい制約下で、個々の重みおよび活性化テンソルの2,4,8ビットのうち、最適な一様量子化レベルを探索する。画像ネット分類のためのMobileNetV1,MobileNetV2,MNasNetモデルの実験的解析を行う。量子化ポリシー探索については、RLエージェントがメモリ利用を最大化する量子化ポリシーを選択する。重みのみの量子化のために2MBのMCUクラスのメモリバウンドが与えられた場合、混合精度エンジンによって生成された圧縮モデルは、非一様関数で量子化された最先端のソリューションと同程度に正確である。これは、深い重みの圧縮のためにMCUデプロイメントに必要な均一な量子化が可能であることを示す。また、アクティベーションメモリ予算を512kbに制限すると、最良のmobilenetv1モデルは、検出された量子化ポリシーによりimagenet上で最大68.4%のスコアを獲得し、同じメモリ制約を満たす他の8ビットネットワークよりも4%精度が向上する。

関連論文リスト

PROM: Prioritize Reduction of Multiplications Over Lower Bit-Widths for Efficient CNNs [46.498278084317704]
ProMは,2つの異なるビット幅を選択的に使用することにより,奥行き分離可能な畳み込みネットワークを定量化するための簡単な手法である。具体的には、ポイントワイズ畳み込みは3次重みに量子化され、残りの加群は8ビット重みを使用する。 PROMは、深度的に分離可能な畳み込みネットワークを3次と8ビットの重みに量子化する課題に対処する。
論文参考訳（メタデータ） (2025-05-06T07:32:24Z)
QuantU-Net: Efficient Wearable Medical Imaging Using Bitwidth as a Trainable Parameter [0.0]
低消費電力デバイスへの効率的な展開に最適化された量子化されたU-NetであるQuantu-Netを紹介する。このモデルは、約8倍のサイズの縮小を実現し、ウェアラブル医療機器のリアルタイム応用に適している。
論文参考訳（メタデータ） (2025-03-10T16:25:34Z)
FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文参考訳（メタデータ） (2023-08-07T04:17:19Z)
MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。 MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-16T23:38:35Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文参考訳（メタデータ） (2022-10-14T10:32:05Z)
Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T17:46:08Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。