論文の概要: BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification
- arxiv url: http://arxiv.org/abs/2101.02667v1
- Date: Thu, 7 Jan 2021 18:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:26:30.432940
- Title: BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification
- Title(参考訳): BRDS:Row-Balanced Dual-Ratio Sparsificationを用いたFPGAベースのLSTM加速器
- Authors: Seyed Abolfazl Ghasemzadeh, Erfan Bank Tavakoli, Mehdi Kamal, Ali
Afzali-Kusha, Massoud Pedram
- Abstract要約: エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
- 参考スコア(独自算出の注目度): 3.3711251611130337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, first, a hardware-friendly pruning algorithm for reducing
energy consumption and improving the speed of Long Short-Term Memory (LSTM)
neural network accelerators is presented. Next, an FPGA-based platform for
efficient execution of the pruned networks based on the proposed algorithm is
introduced. By considering the sensitivity of two weight matrices of the LSTM
models in pruning, different sparsity ratios (i.e., dual-ratio sparsity) are
applied to these weight matrices. To reduce memory accesses, a row-wise
sparsity pattern is adopted. The proposed hardware architecture makes use of
computation overlapping and pipelining to achieve low-power and high-speed. The
effectiveness of the proposed pruning algorithm and accelerator is assessed
under some benchmarks for natural language processing, binary sentiment
classification, and speech recognition. Results show that, e.g., compared to a
recently published work in this field, the proposed accelerator could provide
up to 272% higher effective GOPS/W and the perplexity error is reduced by up to
1.4% for the PTB dataset.
- Abstract(参考訳): 本稿では,まず,エネルギー消費を低減し,長期短期記憶(lstm)ニューラルネットワーク加速器の高速化を図るハードウェアフレンドリーな刈り取りアルゴリズムを提案する。
次に,提案アルゴリズムに基づくプルーンドネットワークの効率的な実行のためのFPGAベースのプラットフォームを提案する。
刈り込みにおけるLSTMモデルの2つの重み行列の感度を考慮し、これらの重み行列に異なる疎度比(二重比疎度)を適用する。
メモリアクセスを減らすために、行毎のスパーシティパターンを採用する。
提案するハードウェアアーキテクチャは計算オーバーラップとパイプライニングを利用して低消費電力と高速を実現する。
提案手法の有効性を,自然言語処理,二項感情分類,音声認識のベンチマークで評価した。
その結果、例えばこの分野で最近発表された研究と比較すると、提案された加速器は最大272%の効果的なGOPS/Wを提供し、PSBデータセットのパープレキシティエラーを最大1.4%削減できることがわかった。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - LUTMUL: Exceed Conventional FPGA Roofline Limit by LUT-based Efficient Multiplication for Neural Network Inference [25.342107763021147]
本稿では、LUTMULを導入し、LUT(ルックアップテーブル)のポテンシャルを利用して乗算を行う。
LUTのこの利点を生かして,FPGAベースのニューラルネットワークアクセラレータの性能向上の可能性を実証する。
論文 参考訳(メタデータ) (2024-11-01T02:54:11Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - Signed Binary Weight Networks [17.07866119979333]
2つの重要なアルゴリズム技術は、効率の良い推論を可能にすることを約束している。
本稿では,さらに効率を向上させるために,署名バイナリネットワークと呼ばれる新しい手法を提案する。
提案手法は,イメージネットとCIFAR10データセットの2進法で同等の精度を達成し,69%の空間性を実現する。
論文 参考訳(メタデータ) (2022-11-25T00:19:21Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Design Space Exploration of Dense and Sparse Mapping Schemes for RRAM
Architectures [2.788414791586367]
本稿では,高密度かつスパースなマッピング方式の利点と限界を定量化するために,拡張された設計空間探索手法を提案する。
また, 1-Transistor-1-Resistor (1T1R) に導入される典型的な非イデアルのトレードオフを定量化し, 定式化するケーススタディを提案する。
論文 参考訳(メタデータ) (2022-01-18T02:16:10Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。
スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。
得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文 参考訳(メタデータ) (2019-10-16T23:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。