Fugu-MT 論文翻訳(概要): Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM Cells for Embedded FPGAs

論文の概要: Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM Cells for Embedded FPGAs

arxiv url: http://arxiv.org/abs/2310.16842v2
Date: Sat, 25 Nov 2023 14:27:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 13:40:36.162927
Title: Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM Cells for Embedded FPGAs
Title（参考訳）: 組み込みFPGA用LSTMセルのスループットボトルネックによるエネルギー効率向上
Authors: Chao Qian, Tianheng Ling, Gregor Schiele
Abstract要約: 本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
参考スコア（独自算出の注目度）: 22.293462679874008
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To process sensor data in the Internet of Things(IoTs), embedded deep learning for 1-dimensional data is an important technique. In the past, CNNs were frequently used because they are simple to optimise for special embedded hardware such as FPGAs. This work proposes a novel LSTM cell optimisation aimed at energy-efficient inference on end devices. Using the traffic speed prediction as a case study, a vanilla LSTM model with the optimised LSTM cell achieves 17534 inferences per second while consuming only 3.8 $\mu$J per inference on the FPGA XC7S15 from Spartan-7 family. It achieves at least 5.4$\times$ faster throughput and 1.37$\times$ more energy efficient than existing approaches.
Abstract（参考訳）: センサデータをIoT(Internet of Things)で処理するには,1次元データの組み込みディープラーニングが重要となる。これまでcnnはfpgaのような特殊な組み込みハードウェアに最適化しやすいため、頻繁に使用されていた。本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。交通速度予測をケーススタディとして、最適化LSTMセルを持つバニラLSTMモデルは、Spartan-7ファミリーのFPGA XC7S15で1秒あたり3.8ドル\mu$Jしか消費せず、毎秒17534の推論を達成する。少なくとも5.4$\times$高速スループットと1.37$\times$既存の手法よりもエネルギー効率が高い。

関連論文リスト

Real-Time Human Activity Recognition on Edge Microcontrollers: Dynamic Hierarchical Inference with Multi-Spectral Sensor Fusion [7.184610830886172]
本稿では,マルチスペクトル融合と解釈可能なモジュールに基づくリソース対応階層型ネットワークを提案する。低消費電力のリアルタイム推論のためにARM Cortex-M4マイクロコントローラ上にデプロイされたHPPI-Netは96.70%の精度を実現している。 MobileNetV3と比較して、HPPI-Netは精度を1.22%改善し、RAM使用量を71.2%削減し、ROM使用量を42.1%削減した。
論文参考訳（メタデータ） (2026-01-29T15:21:45Z)
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文参考訳（メタデータ） (2025-11-24T08:46:36Z)
Enabling Vibration-Based Gesture Recognition on Everyday Furniture via Energy-Efficient FPGA Implementation of 1D Convolutional Networks [11.481972015296812]
本研究では、低消費電力フィールドプログラマブルゲートアレイ(FPGA)上にコンパクトNNを展開させるエネルギー効率のよいソリューションを提案する。我々は、複雑なスペクトル前処理を生波形入力に置き換え、複雑なオンボード前処理を不要とし、精度を犠牲にすることなく入力サイズを21倍削減する。組み込みFPGAに適した2つの軽量アーキテクチャ(1D-CNNと1D-SepCNN)を設計し、パラメータを3億6900万から216に削減し、同等の精度を維持した。
論文参考訳（メタデータ） (2025-10-27T09:30:36Z)
VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文参考訳（メタデータ） (2025-04-15T14:28:48Z)
Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文参考訳（メタデータ） (2025-03-20T22:15:42Z)
Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文参考訳（メタデータ） (2024-10-07T05:04:13Z)
rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。 NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文参考訳（メタデータ） (2024-08-09T19:35:10Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文参考訳（メタデータ） (2022-10-24T18:39:44Z)
Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-temporal Sparsity [16.33285645435743]
超低レイテンシ推論を実現するために、逐次時間間隔を利用する「スパルタ」と呼ばれる新しいアクセラレータを提案する。 Spartus は 9.4 TOp/s のバッチ-1 スループットと 1.1 TOp/RU エネルギー効率を達成した。
論文参考訳（メタデータ） (2021-08-04T22:02:14Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。