論文の概要: Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs
- arxiv url: http://arxiv.org/abs/2310.16842v1
- Date: Wed, 4 Oct 2023 08:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:00:21.843076
- Title: Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs
- Title(参考訳): 組み込みFPGA用LSTMセルのスループットボトルネックによるエネルギー効率向上
- Authors: Chao Qian, Tianheng Ling, Gregor Schiele
- Abstract要約: 本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
- 参考スコア(独自算出の注目度): 22.293462679874008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To process sensor data in the Internet of Things(IoTs), embedded deep
learning for 1-dimensional data is an important technique. In the past, CNNs
were frequently used because they are simple to optimise for special embedded
hardware such as FPGAs. This work proposes a novel LSTM cell optimisation aimed
at energy-efficient inference on end devices. Using the traffic speed
prediction as a case study, a vanilla LSTM model with the optimised LSTM cell
achieves 17534 inferences per second while consuming only 3.8 $\mu$J per
inference on the FPGA \textit{XC7S15} from \textit{Spartan-7} family. It
achieves at least 5.4$\times$ faster throughput and 1.37$\times$ more energy
efficient than existing approaches.
- Abstract(参考訳): センサデータをIoT(Internet of Things)で処理するには,1次元データの組み込みディープラーニングが重要となる。
これまでcnnはfpgaのような特殊な組み込みハードウェアに最適化しやすいため、頻繁に使用されていた。
本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
交通速度予測をケーススタディとして、最適化されたLSTMセルを持つバニラLSTMモデルは、1秒あたり17534の推論を達成し、また、 \textit{XC7S15}ファミリーのFPGA \textit{XC7S15} の推論に対してわずか3.8$\mu$Jしか消費しない。
少なくとも5.4$\times$高速スループットと1.37$\times$既存の手法よりもエネルギー効率が高い。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting
Spatio-temporal Sparsity [16.33285645435743]
超低レイテンシ推論を実現するために、逐次時間間隔を利用する「スパルタ」と呼ばれる新しいアクセラレータを提案する。
Spartus は 9.4 TOp/s のバッチ-1 スループットと 1.1 TOp/RU エネルギー効率を達成した。
論文 参考訳(メタデータ) (2021-08-04T22:02:14Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。