Fugu-MT 論文翻訳(概要): BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification

論文の概要: BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification

arxiv url: http://arxiv.org/abs/2101.02667v1
Date: Thu, 7 Jan 2021 18:23:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-10 13:26:30.432940
Title: BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification
Title（参考訳）: BRDS:Row-Balanced Dual-Ratio Sparsificationを用いたFPGAベースのLSTM加速器
Authors: Seyed Abolfazl Ghasemzadeh, Erfan Bank Tavakoli, Mehdi Kamal, Ali Afzali-Kusha, Massoud Pedram
Abstract要約: エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
参考スコア（独自算出の注目度）: 3.3711251611130337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, first, a hardware-friendly pruning algorithm for reducing energy consumption and improving the speed of Long Short-Term Memory (LSTM) neural network accelerators is presented. Next, an FPGA-based platform for efficient execution of the pruned networks based on the proposed algorithm is introduced. By considering the sensitivity of two weight matrices of the LSTM models in pruning, different sparsity ratios (i.e., dual-ratio sparsity) are applied to these weight matrices. To reduce memory accesses, a row-wise sparsity pattern is adopted. The proposed hardware architecture makes use of computation overlapping and pipelining to achieve low-power and high-speed. The effectiveness of the proposed pruning algorithm and accelerator is assessed under some benchmarks for natural language processing, binary sentiment classification, and speech recognition. Results show that, e.g., compared to a recently published work in this field, the proposed accelerator could provide up to 272% higher effective GOPS/W and the perplexity error is reduced by up to 1.4% for the PTB dataset.
Abstract（参考訳）: 本稿では,まず,エネルギー消費を低減し,長期短期記憶(lstm)ニューラルネットワーク加速器の高速化を図るハードウェアフレンドリーな刈り取りアルゴリズムを提案する。次に,提案アルゴリズムに基づくプルーンドネットワークの効率的な実行のためのFPGAベースのプラットフォームを提案する。刈り込みにおけるLSTMモデルの2つの重み行列の感度を考慮し、これらの重み行列に異なる疎度比(二重比疎度)を適用する。メモリアクセスを減らすために、行毎のスパーシティパターンを採用する。提案するハードウェアアーキテクチャは計算オーバーラップとパイプライニングを利用して低消費電力と高速を実現する。提案手法の有効性を,自然言語処理,二項感情分類,音声認識のベンチマークで評価した。その結果、例えばこの分野で最近発表された研究と比較すると、提案された加速器は最大272%の効果的なGOPS/Wを提供し、PSBデータセットのパープレキシティエラーを最大1.4%削減できることがわかった。

関連論文リスト

Pushing the Limits of Beam Search Decoding for Transducer-based ASR models [18.41716157723428]
ビームサーチはキーネットワークコンポーネントの繰り返し評価によりトランスデューサを著しく遅くする。本稿では,トランスデューサのビームサーチを高速化する汎用手法を提案し,ALSD++とAES++の2つの最適化アルゴリズムを実装した。
論文参考訳（メタデータ） (2025-05-30T19:42:48Z)
Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。 PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文参考訳（メタデータ） (2025-02-12T18:54:10Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
LUTMUL: Exceed Conventional FPGA Roofline Limit by LUT-based Efficient Multiplication for Neural Network Inference [25.342107763021147]
本稿では、LUTMULを導入し、LUT(ルックアップテーブル)のポテンシャルを利用して乗算を行う。 LUTのこの利点を生かして,FPGAベースのニューラルネットワークアクセラレータの性能向上の可能性を実証する。
論文参考訳（メタデータ） (2024-11-01T02:54:11Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
FireFly: A High-Throughput Hardware Accelerator for Spiking Neural Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文参考訳（メタデータ） (2023-01-05T04:28:07Z)
Signed Binary Weight Networks [17.07866119979333]
2つの重要なアルゴリズム技術は、効率の良い推論を可能にすることを約束している。本稿では,さらに効率を向上させるために,署名バイナリネットワークと呼ばれる新しい手法を提案する。提案手法は,イメージネットとCIFAR10データセットの2進法で同等の精度を達成し,69%の空間性を実現する。
論文参考訳（メタデータ） (2022-11-25T00:19:21Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Federated Learning for Energy-limited Wireless Networks: A Partial Model Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックであるまず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文参考訳（メタデータ） (2022-04-20T19:09:52Z)
Design Space Exploration of Dense and Sparse Mapping Schemes for RRAM Architectures [2.788414791586367]
本稿では,高密度かつスパースなマッピング方式の利点と限界を定量化するために,拡張された設計空間探索手法を提案する。また, 1-Transistor-1-Resistor (1T1R) に導入される典型的な非イデアルのトレードオフを定量化し, 定式化するケーススタディを提案する。
論文参考訳（メタデータ） (2022-01-18T02:16:10Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文参考訳（メタデータ） (2019-10-16T23:30:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。