論文の概要: Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting
Spatio-temporal Sparsity
- arxiv url: http://arxiv.org/abs/2108.02297v1
- Date: Wed, 4 Aug 2021 22:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:59:51.491647
- Title: Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting
Spatio-temporal Sparsity
- Title(参考訳): Spartus:時空間空間を爆発させるFPGAベースのLSTM加速器
- Authors: Chang Gao, Tobi Delbruck, Shih-Chii Liu
- Abstract要約: 超低レイテンシ推論を実現するために、逐次時間間隔を利用する「スパルタ」と呼ばれる新しいアクセラレータを提案する。
Spartus は 9.4 TOp/s のバッチ-1 スループットと 1.1 TOp/RU エネルギー効率を達成した。
- 参考スコア(独自算出の注目度): 16.33285645435743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Short-Term Memory (LSTM) recurrent networks are frequently used for
tasks involving time sequential data such as speech recognition. However, it is
difficult to deploy these networks on hardware to achieve high throughput and
low latency because the fully-connected structure makes LSTM networks a
memory-bounded algorithm. Previous work in LSTM accelerators either exploited
weight spatial sparsity or temporal sparsity. In this paper, we present a new
accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve
ultra-low latency inference. The spatial sparsity was induced using our
proposed pruning method called Column-Balanced Targeted Dropout (CBTD) that
leads to structured sparse weight matrices benefiting workload balance. It
achieved up to 96% weight sparsity with negligible accuracy difference for an
LSTM network trained on a TIMIT phone recognition task. To induce temporal
sparsity in LSTM, we create the DeltaLSTM by extending the previous DeltaGRU
method to the LSTM network. This combined sparsity saves on weight memory
access and associated arithmetic operations simultaneously. Spartus was
implemented on a Xilinx Zynq-7100 FPGA. The per-sample latency for a single
DeltaLSTM layer of 1024 neurons running on Spartus is 1 us. Spartus achieved
9.4 TOp/s effective batch-1 throughput and 1.1 TOp/J energy efficiency, which
are respectively 4X and 7X higher than the previous state-of-the-art.
- Abstract(参考訳): Long Short-Term Memory (LSTM) は音声認識などの時系列データを含むタスクに頻繁に使用される。
しかし、LSTMネットワークがメモリバウンドアルゴリズムとなるため、ハードウェア上にこれらのネットワークをデプロイして高いスループットと低レイテンシを実現することは困難である。
lstm加速器での以前の作業では、重量空間のスパーシティまたは時間的スパーシティを利用した。
本稿では,超低レイテンシ推定を実現するために,時空間スパース性を利用した新しい加速器「spartus」を提案する。
提案手法はcbtd (column-balanced target dropout) であり, 作業負荷バランスに有利な構造的スパース重み行列を導出する。
TIMIT電話認識タスクでトレーニングされたLSTMネットワークに対して、無視できる精度差で最大96%の重量幅を実現した。
従来の DeltaGRU を LSTM ネットワークに拡張して DeltaLSTM を生成する。
これにより、重み付けメモリアクセスと関連する演算を同時に保存できる。
Spartus は Xilinx Zynq-7100 FPGA 上で実装された。
Spartus上で動作する1024のニューロンからなる単一のDeltaLSTMレイヤのサンプル毎のレイテンシは1対1である。
spartusは9.4 top/sの効率的なバッチ1スループットと1.1 top/jエネルギー効率を達成した。
関連論文リスト
- BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs [22.293462679874008]
本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
論文 参考訳(メタデータ) (2023-10-04T08:42:10Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Extreme-Long-short Term Memory for Time-series Prediction [0.0]
Long Short-Term Memory (LSTM)は、新しいタイプのリカレントニューラルネットワーク(RNN)である
本稿では,高度なLSTMアルゴリズムであるExtreme Long Short-Term Memory (E-LSTM)を提案する。
新しいE-LSTMは、7番目のエポックなLSTMの結果を得るためには2エポックしか必要としない。
論文 参考訳(メタデータ) (2022-10-15T09:45:48Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。