論文の概要: Non-Volatile Memory Array Based Quantization- and Noise-Resilient LSTM
Neural Networks
- arxiv url: http://arxiv.org/abs/2002.10636v1
- Date: Tue, 25 Feb 2020 02:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:36:50.321064
- Title: Non-Volatile Memory Array Based Quantization- and Noise-Resilient LSTM
Neural Networks
- Title(参考訳): 非揮発性メモリアレイによる量子化と雑音耐性LSTMニューラルネットワーク
- Authors: Wen Ma, Pi-Feng Chiu, Won Ho Choi, Minghai Qin, Daniel Bedau, Martin
Lueker-Boden
- Abstract要約: 本稿では,LSTMモデルへの量子化対応学習アルゴリズムの適用に焦点を当てる。
4ビットのNVM重みと4ビットのADC/DACしか必要とせず、浮動小数点点のベースラインとして同等のLSTMネットワーク性能が得られることを示した。
提案したLSTM加速器のベンチマーク解析により、従来のデジタル手法に比べて少なくとも2.4倍の計算効率と40倍の面積効率が得られた。
- 参考スコア(独自算出の注目度): 1.5332481598232224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cloud and edge computing models, it is important that compute devices at
the edge be as power efficient as possible. Long short-term memory (LSTM)
neural networks have been widely used for natural language processing, time
series prediction and many other sequential data tasks. Thus, for these
applications there is increasing need for low-power accelerators for LSTM model
inference at the edge. In order to reduce power dissipation due to data
transfers within inference devices, there has been significant interest in
accelerating vector-matrix multiplication (VMM) operations using non-volatile
memory (NVM) weight arrays. In NVM array-based hardware, reduced bit-widths
also significantly increases the power efficiency. In this paper, we focus on
the application of quantization-aware training algorithm to LSTM models, and
the benefits these models bring in terms of resilience against both
quantization error and analog device noise. We have shown that only 4-bit NVM
weights and 4-bit ADC/DACs are needed to produce equivalent LSTM network
performance as floating-point baseline. Reasonable levels of ADC quantization
noise and weight noise can be naturally tolerated within our NVMbased quantized
LSTM network. Benchmark analysis of our proposed LSTM accelerator for inference
has shown at least 2.4x better computing efficiency and 40x higher area
efficiency than traditional digital approaches (GPU, FPGA, and ASIC). Some
other novel approaches based on NVM promise to deliver higher computing
efficiency (up to 4.7x) but require larger arrays with potential higher error
rates.
- Abstract(参考訳): クラウドおよびエッジコンピューティングモデルでは、エッジにあるデバイスを可能な限り効率よく計算することが重要である。
長期記憶(LSTM)ニューラルネットワークは、自然言語処理、時系列予測、その他多くのシーケンシャルなデータタスクに広く利用されている。
したがって、これらのアプリケーションでは、エッジでのLSTMモデル推論のための低消費電力アクセラレータの必要性が高まっている。
非揮発性メモリ(NVM)重み付けを用いたベクトル行列乗算(VMM)演算の高速化に注目が集まっている。
NVMアレイベースのハードウェアでは、ビット幅の削減が電力効率を著しく向上させる。
本稿では、LSTMモデルへの量子化対応学習アルゴリズムの適用と、これらのモデルが量子化誤差とアナログデバイスノイズの両方に対してレジリエンスをもたらす利点に焦点を当てる。
4ビットのNVM重みと4ビットのADC/DACしか必要とせず、浮動小数点ネットワーク性能を浮動小数点ベースラインとして実現できないことを示した。
NVMベースの量子化LSTMネットワークでは、ADC量子化ノイズと重み付けノイズの共鳴レベルが自然に許容される。
提案したLSTMアクセラレータのベンチマーク解析により,従来のデジタル手法(GPU,FPGA,ASIC)に比べて,少なくとも2.4倍の計算効率と40倍の面積効率が得られた。
nvmに基づく他の斬新なアプローチは、高い計算効率(最大4.7倍)を提供するが、潜在的なエラー率の高いより大きな配列を必要とする。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - RF-Photonic Deep Learning Processor with Shannon-Limited Data Movement [0.0]
光ニューラルネットワーク(ONN)は、超低レイテンシとエネルギー消費を持つ有望な加速器である。
我々は、周波数領域のデータを符号化する乗法的アナログ周波数変換ONN(MAFT-ONN)を導入する。
我々は、生のRF信号で完全にアナログのディープラーニングを演算する最初のハードウェアアクセラレータを実験的に実証した。
論文 参考訳(メタデータ) (2022-07-08T16:37:13Z) - MemSE: Fast MSE Prediction for Noisy Memristor-Based DNN Accelerators [5.553959304125023]
我々は,行列ベクトル乗算(MVM)を計算するためにmemristorを用いたDNNの平均二乗誤差を理論的に解析する。
DNNモデルのサイズを小さくする必要性から量子化ノイズと、中間値のプログラミングにおける可変性から生じるプログラミングノイズの両方を考慮に入れている。
提案手法はモンテカルロシミュレーションよりも約2桁高速であり, 与えられた電力制約に対して最小限の誤差を達成するために, 実装パラメータを最適化することができる。
論文 参考訳(メタデータ) (2022-05-03T18:10:43Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。