Fugu-MT 論文翻訳(概要): Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-temporal Sparsity

論文の概要: Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-temporal Sparsity

arxiv url: http://arxiv.org/abs/2108.02297v1
Date: Wed, 4 Aug 2021 22:02:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-06 14:59:51.491647
Title: Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-temporal Sparsity
Title（参考訳）: Spartus:時空間空間を爆発させるFPGAベースのLSTM加速器
Authors: Chang Gao, Tobi Delbruck, Shih-Chii Liu
Abstract要約: 超低レイテンシ推論を実現するために、逐次時間間隔を利用する「スパルタ」と呼ばれる新しいアクセラレータを提案する。 Spartus は 9.4 TOp/s のバッチ-1 スループットと 1.1 TOp/RU エネルギー効率を達成した。
参考スコア（独自算出の注目度）: 16.33285645435743
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long Short-Term Memory (LSTM) recurrent networks are frequently used for tasks involving time sequential data such as speech recognition. However, it is difficult to deploy these networks on hardware to achieve high throughput and low latency because the fully-connected structure makes LSTM networks a memory-bounded algorithm. Previous work in LSTM accelerators either exploited weight spatial sparsity or temporal sparsity. In this paper, we present a new accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve ultra-low latency inference. The spatial sparsity was induced using our proposed pruning method called Column-Balanced Targeted Dropout (CBTD) that leads to structured sparse weight matrices benefiting workload balance. It achieved up to 96% weight sparsity with negligible accuracy difference for an LSTM network trained on a TIMIT phone recognition task. To induce temporal sparsity in LSTM, we create the DeltaLSTM by extending the previous DeltaGRU method to the LSTM network. This combined sparsity saves on weight memory access and associated arithmetic operations simultaneously. Spartus was implemented on a Xilinx Zynq-7100 FPGA. The per-sample latency for a single DeltaLSTM layer of 1024 neurons running on Spartus is 1 us. Spartus achieved 9.4 TOp/s effective batch-1 throughput and 1.1 TOp/J energy efficiency, which are respectively 4X and 7X higher than the previous state-of-the-art.
Abstract（参考訳）: Long Short-Term Memory (LSTM) は音声認識などの時系列データを含むタスクに頻繁に使用される。しかし、LSTMネットワークがメモリバウンドアルゴリズムとなるため、ハードウェア上にこれらのネットワークをデプロイして高いスループットと低レイテンシを実現することは困難である。 lstm加速器での以前の作業では、重量空間のスパーシティまたは時間的スパーシティを利用した。本稿では,超低レイテンシ推定を実現するために,時空間スパース性を利用した新しい加速器「spartus」を提案する。提案手法はcbtd (column-balanced target dropout) であり, 作業負荷バランスに有利な構造的スパース重み行列を導出する。 TIMIT電話認識タスクでトレーニングされたLSTMネットワークに対して、無視できる精度差で最大96%の重量幅を実現した。従来の DeltaGRU を LSTM ネットワークに拡張して DeltaLSTM を生成する。これにより、重み付けメモリアクセスと関連する演算を同時に保存できる。 Spartus は Xilinx Zynq-7100 FPGA 上で実装された。 Spartus上で動作する1024のニューロンからなる単一のDeltaLSTMレイヤのサンプル毎のレイテンシは1対1である。 spartusは9.4 top/sの効率的なバッチ1スループットと1.1 top/jエネルギー効率を達成した。

関連論文リスト

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文参考訳（メタデータ） (2025-07-11T17:28:56Z)
BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers [16.72390519245507]
(Bl)ock(a)nd(S)parse(T)ransformers)(BLaST) Bl)ock (a)nd (S)parse (T)ransformers (BLaST)を紹介する。 BLaSTは、無視できる精度の損失を伴うスパース重量において最大95%の間隔を達成できる。
論文参考訳（メタデータ） (2025-07-03T18:53:54Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Unlocking the Power of LSTM for Long Term Time Series Forecasting [27.245021350821638]
本稿では, sLSTM 上に実装したP-sLSTM という単純なアルゴリズムを提案する。これらの改良により、TSFにおけるsLSTMの性能が大幅に向上し、最先端の結果が得られた。
論文参考訳（メタデータ） (2024-08-19T13:59:26Z)
xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文参考訳（メタデータ） (2024-05-07T17:50:21Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM Cells for Embedded FPGAs [22.293462679874008]
本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
論文参考訳（メタデータ） (2023-10-04T08:42:10Z)
Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。 rev-to-SNN変換フレームワーク、続いてSNNトレーニング。我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文参考訳（メタデータ） (2022-10-23T04:10:27Z)
Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文参考訳（メタデータ） (2022-03-11T23:44:33Z)
Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文参考訳（メタデータ） (2021-08-31T18:01:30Z)
BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文参考訳（メタデータ） (2021-01-07T18:23:48Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文参考訳（メタデータ） (2020-02-04T04:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。