論文の概要: Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks
- arxiv url: http://arxiv.org/abs/2203.05025v1
- Date: Wed, 9 Mar 2022 19:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:44:15.718492
- Title: Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks
- Title(参考訳): 低ビット幅およびハードウェア対応ニューラルネットワークのための2次量子化
- Authors: Dominika Przewlocka-Rus, Syed Shakib Sarwar, H. Ekin Sumbul, Yuecheng
Li, Barbara De Salvo
- Abstract要約: 本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
- 参考スコア(独自算出の注目度): 1.398698203665363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Deep Neural Networks in low-power embedded devices for real
time-constrained applications requires optimization of memory and computational
complexity of the networks, usually by quantizing the weights. Most of the
existing works employ linear quantization which causes considerable degradation
in accuracy for weight bit widths lower than 8. Since the distribution of
weights is usually non-uniform (with most weights concentrated around zero),
other methods, such as logarithmic quantization, are more suitable as they are
able to preserve the shape of the weight distribution more precise. Moreover,
using base-2 logarithmic representation allows optimizing the multiplication by
replacing it with bit shifting. In this paper, we explore non-linear
quantization techniques for exploiting lower bit precision and identify
favorable hardware implementation options. We developed the Quantization Aware
Training (QAT) algorithm that allowed training of low bit width Power-of-Two
(PoT) networks and achieved accuracies on par with state-of-the-art floating
point models for different tasks. We explored PoT weight encoding techniques
and investigated hardware designs of MAC units for three different quantization
schemes - uniform, PoT and Additive-PoT (APoT) - to show the increased
efficiency when using the proposed approach. Eventually, the experiments showed
that for low bit width precision, non-uniform quantization performs better than
uniform, and at the same time, PoT quantization vastly reduces the
computational complexity of the neural network.
- Abstract(参考訳): リアルタイムに制約のあるアプリケーションのために、低消費電力の組み込みデバイスにディープニューラルネットワークをデプロイするには、メモリの最適化とネットワークの計算の複雑さが必要となる。
既存の研究の多くは線形量子化を採用しており、重量ビット幅の精度は8より低い。
重みの分布は通常一様ではない(ほとんどの重みは0を中心に集中している)ので、対数量子化のような他の方法は、重みの分布の形状をより正確に保存できるため、より適している。
さらに、base-2対数表現を用いることで、ビットシフトに置き換えることで乗算を最適化することができる。
本稿では,低ビット精度を利用する非線形量子化手法について検討し,適切なハードウェア実装オプションを同定する。
我々は、低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発し、異なるタスクのための最先端浮動小数点モデルと同等の精度を実現した。
提案手法を用いた場合の効率向上を示すため,PoT重み符号化手法を探索し,MACユニットのハードウェア設計を3種類の量子化スキーム(均一,PoT,Additive-PoT(APoT))で検討した。
実験の結果、低ビット幅精度では、非一様量子化は均一性よりも優れており、同時にPoT量子化はニューラルネットワークの計算複雑性を大幅に減少させることがわかった。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。