論文の概要: Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation
- arxiv url: http://arxiv.org/abs/2209.15257v1
- Date: Fri, 30 Sep 2022 06:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:15:49.874850
- Title: Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation
- Title(参考訳): 2量子化を用いたニューラルネットワークの省エネルギーハードウェアアクセラレーション
- Authors: Dominika Przewlocka-Rus, Tomasz Kryjak
- Abstract要約: 我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks virtually dominate the domain of most modern vision
systems, providing high performance at a cost of increased computational
complexity.Since for those systems it is often required to operate both in
real-time and with minimal energy consumption (e.g., for wearable devices or
autonomous vehicles, edge Internet of Things (IoT), sensor networks), various
network optimisation techniques are used, e.g., quantisation, pruning, or
dedicated lightweight architectures. Due to the logarithmic distribution of
weights in neural network layers, a method providing high performance with
significant reduction in computational precision (for 4-bit weights and less)
is the Power-of-Two (PoT) quantisation (and therefore also with a logarithmic
distribution). This method introduces additional possibilities of replacing the
typical for neural networks Multiply and ACcumulate (MAC -- performing, e.g.,
convolution operations) units, with more energy-efficient Bitshift and
ACcumulate (BAC). In this paper, we show that a hardware neural network
accelerator with PoT weights implemented on the Zynq UltraScale + MPSoC ZCU104
SoC FPGA can be at least $1.4x$ more energy efficient than the uniform
quantisation version. To further reduce the actual power requirement by
omitting part of the computation for zero weights, we also propose a new
pruning method adapted to logarithmic quantisation.
- Abstract(参考訳): ディープニューラルネットワーク(Deep Neural Network)は、ほとんどの現代の視覚システムの領域を事実上支配しており、計算複雑性を増大させるコストで高いパフォーマンスを提供する。これらのシステムでは、リアルタイムと最小限のエネルギー消費(例えば、ウェアラブルデバイスや自動運転車、エッジIoT(IoT)、センサーネットワーク)の両方で運用する必要があることが多いため、量子化、プルーニング、専用軽量アーキテクチャなど、様々なネットワーク最適化技術が使用されている。
ニューラルネットワーク層における重みの対数分布のため、計算精度の大幅な低下(4ビット重み以下)を伴うハイパフォーマンスを提供する手法は、パワー・オブ・ツー(ポット)量子化(したがって対数分布も含む)である。
この方法では、一般的なニューラルネットワークのマルチプライとACcumulate(MAC -- performing、例えば畳み込み操作)ユニットをよりエネルギー効率のよいBitshiftとACcumulate(BAC)に置き換える可能性がある。
本稿では、Zynq UltraScale + MPSoC ZCU104 SoC FPGA上に実装されたPoT重み付きハードウェアニューラルネットワークアクセラレータが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
ゼロ重みに対する計算の一部を省略することで実際の電力要求をさらに低減するため、対数量子化に適応した新しいプルーニング法を提案する。
関連論文リスト
- Quantization of Deep Neural Networks to facilitate self-correction of
weights on Phase Change Memory-based analog hardware [0.0]
乗法重みの集合を近似するアルゴリズムを開発する。
これらの重みは、性能の損失を最小限に抑えながら、元のネットワークの重みを表現することを目的としている。
その結果、オンチップパルス発生器と組み合わせると、私たちの自己補正ニューラルネットワークはアナログ認識アルゴリズムで訓練されたものと同等に機能することがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:47:25Z) - The Hardware Impact of Quantization and Pruning for Weights in Spiking
Neural Networks [0.368986335765876]
パラメータの量子化とプルーニングは、モデルサイズを圧縮し、メモリフットプリントを削減し、低レイテンシ実行を容易にする。
本研究では,身近な身近なジェスチャー認識システムであるSNNに対して,孤立度,累積的に,そして同時にプルーニングと量子化の様々な組み合わせについて検討する。
本研究では,3次重みまで精度の低下に悩まされることなく,攻撃的パラメータ量子化に対処可能であることを示す。
論文 参考訳(メタデータ) (2023-02-08T16:25:20Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for
Energy-Efficient Low-precision Deep Convolutional Neural Networks [13.520972975766313]
本研究では、重みの非一様量子化を利用して、エネルギー効率の低い深部畳み込みニューラルネットワーク推論を可能にする枠組みを提案する。
また、重みのビット幅を圧縮する新しいデータ表現形式Encoded Low-Precision Binary Signed Digitを提案する。
論文 参考訳(メタデータ) (2022-07-31T01:34:56Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - AdderNet and its Minimalist Hardware Design for Energy-Efficient
Artificial Intelligence [111.09105910265154]
アドラー畳み込みニューラルネットワーク(AdderNet)を用いた新しいミニマリストハードウェアアーキテクチャを提案する。
AdderNet全体の16%の高速化を実現している。
我々は、AdderNetが他の競争相手を追い越せると結論付けている。
論文 参考訳(メタデータ) (2021-01-25T11:31:52Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - A Spike in Performance: Training Hybrid-Spiking Neural Networks with
Quantized Activation Functions [6.574517227976925]
Spiking Neural Network(SNN)は、エネルギー効率の高いコンピューティングに対する有望なアプローチである。
我々は、非スパイキングネットワークをSNNに変換する際に、最先端の精度を維持する方法を示す。
論文 参考訳(メタデータ) (2020-02-10T05:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。