論文の概要: CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for
Energy-Efficient Low-precision Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2208.00331v1
- Date: Sun, 31 Jul 2022 01:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:53:30.130911
- Title: CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for
Energy-Efficient Low-precision Deep Convolutional Neural Networks
- Title(参考訳): CoNLoCNN:エネルギー効率の良い低精度深部畳み込みニューラルネットワークの爆発相関と非均一量子化
- Authors: Muhammad Abdullah Hanif, Giuseppe Maria Sarda, Alberto Marchisio,
Guido Masera, Maurizio Martina, Muhammad Shafique
- Abstract要約: 本研究では、重みの非一様量子化を利用して、エネルギー効率の低い深部畳み込みニューラルネットワーク推論を可能にする枠組みを提案する。
また、重みのビット幅を圧縮する新しいデータ表現形式Encoded Low-Precision Binary Signed Digitを提案する。
- 参考スコア(独自算出の注目度): 13.520972975766313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's era of smart cyber-physical systems, Deep Neural Networks (DNNs)
have become ubiquitous due to their state-of-the-art performance in complex
real-world applications. The high computational complexity of these networks,
which translates to increased energy consumption, is the foremost obstacle
towards deploying large DNNs in resource-constrained systems. Fixed-Point (FP)
implementations achieved through post-training quantization are commonly used
to curtail the energy consumption of these networks. However, the uniform
quantization intervals in FP restrict the bit-width of data structures to large
values due to the need to represent most of the numbers with sufficient
resolution and avoid high quantization errors. In this paper, we leverage the
key insight that (in most of the scenarios) DNN weights and activations are
mostly concentrated near zero and only a few of them have large magnitudes. We
propose CoNLoCNN, a framework to enable energy-efficient low-precision deep
convolutional neural network inference by exploiting: (1) non-uniform
quantization of weights enabling simplification of complex multiplication
operations; and (2) correlation between activation values enabling partial
compensation of quantization errors at low cost without any run-time overheads.
To significantly benefit from non-uniform quantization, we also propose a novel
data representation format, Encoded Low-Precision Binary Signed Digit, to
compress the bit-width of weights while ensuring direct use of the encoded
weight for processing using a novel multiply-and-accumulate (MAC) unit design.
- Abstract(参考訳): 今日のスマートサイバー物理システムの時代、Deep Neural Networks(DNN)は、複雑な現実世界のアプリケーションにおける最先端のパフォーマンスのために、ユビキタスになった。
これらのネットワークの計算複雑性はエネルギー消費の増加に寄与し、資源制約されたシステムに大規模なDNNをデプロイする上で最も大きな障害となる。
トレーニング後の量子化によって達成される固定点(fp)実装は、これらのネットワークのエネルギー消費を減らすために一般的に用いられる。
しかし、FPの均一量子化間隔は、多くの数値を十分な解像度で表現し、高い量子化誤差を避ける必要があるため、データ構造のビット幅を大きな値に制限する。
本稿では、(ほとんどのシナリオにおいて)DNNの重みとアクティベーションがほとんど0付近に集中しており、そのごく一部が大きな大きさであるという重要な洞察を利用する。
1)複雑な乗算演算の単純化を可能にする重みの非一様量子化,(2)実行時のオーバーヘッドを伴わずに低コストで量子化誤差を部分的に補償できるアクティベーション値の相関関係を,エネルギー効率の低い深部畳み込みニューラルネットワーク推論に活用するフレームワークであるCoNLoCNNを提案する。
非一様量子化の利点を大いに生かすために,新しいデータ表現形式であるEncoded Low-Precision Binary Signed Digitを提案し,そのビット幅の重みを圧縮し,新しい乗算および累積単位設計を用いた処理に符号化重みを直接使用することを保証する。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Constraint Guided Model Quantization of Neural Networks [0.0]
Constraint Guided Model Quantization (CGMQ) は、計算資源の上限を使い、ニューラルネットワークのパラメータのビット幅を削減する量子化対応トレーニングアルゴリズムである。
MNISTでは、CGMQの性能が最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2024-09-30T09:41:16Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - On the Acceleration of Deep Neural Network Inference using Quantized
Compressed Sensing [0.0]
量子化圧縮センシング(QCS)に基づく新しいバイナリ量子化関数を提案する。
提案手法は, 量子化誤差を低減し, 精度を低下させるとともに, 標準手法の実用的メリットを保っている。
論文 参考訳(メタデータ) (2021-08-23T12:03:24Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。