論文の概要: Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting
Spatio-temporal Sparsity
- arxiv url: http://arxiv.org/abs/2108.02297v1
- Date: Wed, 4 Aug 2021 22:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:59:51.491647
- Title: Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting
Spatio-temporal Sparsity
- Title(参考訳): Spartus:時空間空間を爆発させるFPGAベースのLSTM加速器
- Authors: Chang Gao, Tobi Delbruck, Shih-Chii Liu
- Abstract要約: 超低レイテンシ推論を実現するために、逐次時間間隔を利用する「スパルタ」と呼ばれる新しいアクセラレータを提案する。
Spartus は 9.4 TOp/s のバッチ-1 スループットと 1.1 TOp/RU エネルギー効率を達成した。
- 参考スコア(独自算出の注目度): 16.33285645435743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Short-Term Memory (LSTM) recurrent networks are frequently used for
tasks involving time sequential data such as speech recognition. However, it is
difficult to deploy these networks on hardware to achieve high throughput and
low latency because the fully-connected structure makes LSTM networks a
memory-bounded algorithm. Previous work in LSTM accelerators either exploited
weight spatial sparsity or temporal sparsity. In this paper, we present a new
accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve
ultra-low latency inference. The spatial sparsity was induced using our
proposed pruning method called Column-Balanced Targeted Dropout (CBTD) that
leads to structured sparse weight matrices benefiting workload balance. It
achieved up to 96% weight sparsity with negligible accuracy difference for an
LSTM network trained on a TIMIT phone recognition task. To induce temporal
sparsity in LSTM, we create the DeltaLSTM by extending the previous DeltaGRU
method to the LSTM network. This combined sparsity saves on weight memory
access and associated arithmetic operations simultaneously. Spartus was
implemented on a Xilinx Zynq-7100 FPGA. The per-sample latency for a single
DeltaLSTM layer of 1024 neurons running on Spartus is 1 us. Spartus achieved
9.4 TOp/s effective batch-1 throughput and 1.1 TOp/J energy efficiency, which
are respectively 4X and 7X higher than the previous state-of-the-art.
- Abstract(参考訳): Long Short-Term Memory (LSTM) は音声認識などの時系列データを含むタスクに頻繁に使用される。
しかし、LSTMネットワークがメモリバウンドアルゴリズムとなるため、ハードウェア上にこれらのネットワークをデプロイして高いスループットと低レイテンシを実現することは困難である。
lstm加速器での以前の作業では、重量空間のスパーシティまたは時間的スパーシティを利用した。
本稿では,超低レイテンシ推定を実現するために,時空間スパース性を利用した新しい加速器「spartus」を提案する。
提案手法はcbtd (column-balanced target dropout) であり, 作業負荷バランスに有利な構造的スパース重み行列を導出する。
TIMIT電話認識タスクでトレーニングされたLSTMネットワークに対して、無視できる精度差で最大96%の重量幅を実現した。
従来の DeltaGRU を LSTM ネットワークに拡張して DeltaLSTM を生成する。
これにより、重み付けメモリアクセスと関連する演算を同時に保存できる。
Spartus は Xilinx Zynq-7100 FPGA 上で実装された。
Spartus上で動作する1024のニューロンからなる単一のDeltaLSTMレイヤのサンプル毎のレイテンシは1対1である。
spartusは9.4 top/sの効率的なバッチ1スループットと1.1 top/jエネルギー効率を達成した。
関連論文リスト
- Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Unlocking the Power of LSTM for Long Term Time Series Forecasting [27.245021350821638]
本稿では, sLSTM 上に実装したP-sLSTM という単純なアルゴリズムを提案する。
これらの改良により、TSFにおけるsLSTMの性能が大幅に向上し、最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-08-19T13:59:26Z) - xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (2024-05-07T17:50:21Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs [22.293462679874008]
本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
論文 参考訳(メタデータ) (2023-10-04T08:42:10Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。