論文の概要: Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs
- arxiv url: http://arxiv.org/abs/2310.16842v2
- Date: Sat, 25 Nov 2023 14:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:40:36.162927
- Title: Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs
- Title(参考訳): 組み込みFPGA用LSTMセルのスループットボトルネックによるエネルギー効率向上
- Authors: Chao Qian, Tianheng Ling, Gregor Schiele
- Abstract要約: 本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
- 参考スコア(独自算出の注目度): 22.293462679874008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To process sensor data in the Internet of Things(IoTs), embedded deep
learning for 1-dimensional data is an important technique. In the past, CNNs
were frequently used because they are simple to optimise for special embedded
hardware such as FPGAs. This work proposes a novel LSTM cell optimisation aimed
at energy-efficient inference on end devices. Using the traffic speed
prediction as a case study, a vanilla LSTM model with the optimised LSTM cell
achieves 17534 inferences per second while consuming only 3.8 $\mu$J per
inference on the FPGA XC7S15 from Spartan-7 family. It achieves at least
5.4$\times$ faster throughput and 1.37$\times$ more energy efficient than
existing approaches.
- Abstract(参考訳): センサデータをIoT(Internet of Things)で処理するには,1次元データの組み込みディープラーニングが重要となる。
これまでcnnはfpgaのような特殊な組み込みハードウェアに最適化しやすいため、頻繁に使用されていた。
本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
交通速度予測をケーススタディとして、最適化LSTMセルを持つバニラLSTMモデルは、Spartan-7ファミリーのFPGA XC7S15で1秒あたり3.8ドル\mu$Jしか消費せず、毎秒17534の推論を達成する。
少なくとも5.4$\times$高速スループットと1.37$\times$既存の手法よりもエネルギー効率が高い。
関連論文リスト
- HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large
Language Model Inference [12.114970711921226]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting
Spatio-temporal Sparsity [16.33285645435743]
超低レイテンシ推論を実現するために、逐次時間間隔を利用する「スパルタ」と呼ばれる新しいアクセラレータを提案する。
Spartus は 9.4 TOp/s のバッチ-1 スループットと 1.1 TOp/RU エネルギー効率を達成した。
論文 参考訳(メタデータ) (2021-08-04T22:02:14Z) - Accelerating Recurrent Neural Networks for Gravitational Wave
Experiments [1.9263019320519579]
LIGO検出器から時系列データを解析するためのRNN推論を高速化する新しいアーキテクチャを開発した。
このアーキテクチャのためのカスタマイズ可能なテンプレートが設計され、低遅延FPGAの設計が作成できるようになった。
論文 参考訳(メタデータ) (2021-06-26T20:44:02Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。