論文の概要: CREW: Computation Reuse and Efficient Weight Storage for
Hardware-accelerated MLPs and RNNs
- arxiv url: http://arxiv.org/abs/2107.09408v1
- Date: Tue, 20 Jul 2021 11:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:48:17.777795
- Title: CREW: Computation Reuse and Efficient Weight Storage for
Hardware-accelerated MLPs and RNNs
- Title(参考訳): CREW: ハードウェアアクセラレーション型MLPとRNNのための計算再利用と効率的な軽量化
- Authors: Marc Riera, Jose-Maria Arnau, Antonio Gonzalez
- Abstract要約: 本稿では,ReuseとEfficient Weight Storage機構を実装したハードウェアアクセラレータCREWを紹介する。
CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。
CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。
- 参考スコア(独自算出の注目度): 1.0635248457021496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) have achieved tremendous success for cognitive
applications. The core operation in a DNN is the dot product between quantized
inputs and weights. Prior works exploit the weight/input repetition that arises
due to quantization to avoid redundant computations in Convolutional Neural
Networks (CNNs). However, in this paper we show that their effectiveness is
severely limited when applied to Fully-Connected (FC) layers, which are
commonly used in state-of-the-art DNNs, as it is the case of modern Recurrent
Neural Networks (RNNs) and Transformer models.
To improve energy-efficiency of FC computation we present CREW, a hardware
accelerator that implements Computation Reuse and an Efficient Weight Storage
mechanism to exploit the large number of repeated weights in FC layers. CREW
first performs the multiplications of the unique weights by their respective
inputs and stores the results in an on-chip buffer. The storage requirements
are modest due to the small number of unique weights and the relatively small
size of the input compared to convolutional layers. Next, CREW computes each
output by fetching and adding its required products. To this end, each weight
is replaced offline by an index in the buffer of unique products. Indices are
typically smaller than the quantized weights, since the number of unique
weights for each input tends to be much lower than the range of quantized
weights, which reduces storage and memory bandwidth requirements.
Overall, CREW greatly reduces the number of multiplications and provides
significant savings in model memory footprint and memory bandwidth usage. We
evaluate CREW on a diverse set of modern DNNs. On average, CREW provides 2.61x
speedup and 2.42x energy savings over a TPU-like accelerator. Compared to UCNN,
a state-of-art computation reuse technique, CREW achieves 2.10x speedup and
2.08x energy savings on average.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、認知アプリケーションにおいて大きな成功を収めています。
DNNのコア操作は、量子化された入力と重みの間のドット積である。
先行研究は、畳み込みニューラルネットワーク(cnns)における冗長な計算を避けるために量子化によって生じる重み/入力反復を利用する。
しかし,本稿では,最新のリカレントニューラルネットワーク(RNN)モデルやトランスフォーマーモデルのように,最先端のDNNで一般的に使用されているFC層に適用した場合,その有効性が著しく制限されていることを示す。
fc計算の省エネ性を向上させるために,計算再利用を実現するハードウェアアクセラレータcrewと,fc層で繰り返し発生する重みを活用できる効率的な重み記憶機構を提案する。
CREWはまず、各入力によるユニークな重みの乗算を行い、結果をオンチップバッファに格納する。
ストレージの要件は、少数のユニークな重みと、畳み込み層に比べて入力のサイズが比較的小さいため、控えめである。
次にCREWは、必要な製品をフェッチして追加することで、各出力を計算する。
この目的のために、各重みは、ユニークな製品のバッファ内のインデックスに置き換えられる。
インデックスは一般に量子化重みよりも小さく、各入力のユニークな重みの数は量子化重みの範囲よりもはるかに小さくなり、ストレージとメモリ帯域幅の要求が減少する。
全体として、CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。
我々は, CREW を現代の DNN の多様な集合で評価する。
CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。
最先端の計算再利用技術であるUCNNと比較して、CREWは平均で2.10倍のスピードアップと2.08倍の省エネを実現している。
関連論文リスト
- Sorted Weight Sectioning for Energy-Efficient Unstructured Sparse DNNs on Compute-in-Memory Crossbars [4.089232204089156]
$textitsorted weight sectioning$ (SWS) は、ビットスライクな計算インメモリ(CIM)クロスバーにソートされたディープニューラルネットワーク(DNN)重みを配置する重み付けアルゴリズムである。
提案手法は,非構造スパルスBERTモデルにおけるADCエネルギー使用量を89.5%削減する。
論文 参考訳(メタデータ) (2024-10-15T05:37:16Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for
Energy-Efficient Low-precision Deep Convolutional Neural Networks [13.520972975766313]
本研究では、重みの非一様量子化を利用して、エネルギー効率の低い深部畳み込みニューラルネットワーク推論を可能にする枠組みを提案する。
また、重みのビット幅を圧縮する新しいデータ表現形式Encoded Low-Precision Binary Signed Digitを提案する。
論文 参考訳(メタデータ) (2022-07-31T01:34:56Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based
Quantized DNNs [7.635154697466773]
ディープニューラルネットワーク(DNN)におけるパラメータの数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。
本稿では,量子化 DNN 専用の行列乗法 BiQGEMM を提案する。
論文 参考訳(メタデータ) (2020-05-20T08:15:33Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。