論文の概要: Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks
- arxiv url: http://arxiv.org/abs/2101.04354v1
- Date: Tue, 12 Jan 2021 09:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:35:38.966935
- Title: Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks
- Title(参考訳): 活性化密度に基づくエネルギー効率の良いニューラルネットワークの混合精度量子化
- Authors: Karina Vasquez, Yeshwanth Venkatesha, Abhiroop Bhattacharjee, Abhishek
Moitra, Priyadarshini Panda
- Abstract要約: ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
- 参考スコア(独自算出の注目度): 2.666640112616559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As neural networks gain widespread adoption in embedded devices, there is a
need for model compression techniques to facilitate deployment in
resource-constrained environments. Quantization is one of the go-to methods
yielding state-of-the-art model compression. Most approaches take a fully
trained model, apply different heuristics to determine the optimal
bit-precision for different layers of the network, and retrain the network to
regain any drop in accuracy. Based on Activation Density (AD)-the proportion of
non-zero activations in a layer-we propose an in-training quantization method.
Our method calculates bit-width for each layer during training yielding a mixed
precision model with competitive accuracy. Since we train lower precision
models during training, our approach yields the final quantized model at lower
training complexity and also eliminates the need for re-training. We run
experiments on benchmark datasets like CIFAR-10, CIFAR-100, TinyImagenet on
VGG19/ResNet18 architectures and report the accuracy and energy estimates for
the same. We achieve ~4.5x benefit in terms of estimated
multiply-and-accumulate (MAC) reduction while reducing the training complexity
by 50% in our experiments. To further evaluate the energy benefits of our
proposed method, we develop a mixed-precision scalable Process In Memory (PIM)
hardware accelerator platform. The hardware platform incorporates shift-add
functionality for handling multi-bit precision neural network models.
Evaluating the quantized models obtained with our proposed method on the PIM
platform yields ~5x energy reduction compared to 16-bit models. Additionally,
we find that integrating AD based quantization with AD based pruning (both
conducted during training) yields up to ~198x and ~44x energy reductions for
VGG19 and ResNet18 architectures respectively on PIM platform compared to
baseline 16-bit precision, unpruned models.
- Abstract(参考訳): ニューラルネットワークが組み込みデバイスで広く普及するにつれて、リソース制約のある環境への展開を容易にするためのモデル圧縮技術が必要である。
量子化は最先端のモデル圧縮をもたらすゴートメソッドの1つである。
ほとんどのアプローチは、完全に訓練されたモデルを採用し、異なるヒューリスティックを適用して、ネットワークの異なる層に対して最適なビット精度を決定する。
活性化密度 (AD) に基づいて, 層内の非ゼロ活性化の比率を推定し, イントレーニング量子化法を提案する。
本手法は,混合精度モデルによる学習中の各層に対するビット幅を計算する。
トレーニング中に精度の低いモデルをトレーニングするため、このアプローチはトレーニング複雑性の低い最終量子化モデルをもたらし、再トレーニングの必要性も排除します。
我々は、VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットで実験を行い、その精度とエネルギー推定を報告する。
推定乗算累積 (MAC) の削減と, トレーニングの複雑さを50%減らすことで, 4.5倍の利点が得られる。
提案手法の省エネルギー効果を更に評価するため,pim(mixed-precision scalable process in memory)ハードウェアアクセラレーションプラットフォームを開発した。
ハードウェアプラットフォームには、マルチビット精密ニューラルネットワークモデルを扱うためのシフト付加機能が含まれている。
提案手法を用いて得られた量子化モデルをPIMプラットフォーム上で評価すると,16ビットモデルと比較して約5倍のエネルギー削減が得られる。
さらに,広告ベースの量子化と広告ベースのプルーニング(どちらもトレーニング中)を統合すると,vgg19とresnet18アーキテクチャの最大198倍,44倍のエネルギー削減がpcmプラットフォーム上で実現されることが分かった。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - A High-Performance Adaptive Quantization Approach for Edge CNN
Applications [0.225596179391365]
最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端のモデル精度を推し進めている。
精度の向上は、かなりのメモリ帯域幅とストレージ要求のコストが伴う。
本稿では,偏りのあるアクティベーションの問題を解決するための適応型高性能量子化法を提案する。
論文 参考訳(メタデータ) (2021-07-18T07:49:18Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。