論文の概要: Exploiting temporal parallelism for LSTM Autoencoder acceleration on FPGA
- arxiv url: http://arxiv.org/abs/2603.13982v1
- Date: Sat, 14 Mar 2026 15:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.525277
- Title: Exploiting temporal parallelism for LSTM Autoencoder acceleration on FPGA
- Title(参考訳): FPGA上でのLSTMオートエンコーダアクセラレーションのための時空間並列処理
- Authors: Aimilios Leftheriotis, Dimosthenis Masouros, Dimitrios Soudris, George Theodoridis,
- Abstract要約: 長期記憶オートエンコーダ(LSTM-AE)は時系列データにおける教師なし異常検出に特に有効である。
本稿では,時間並列性を利用するデータフローアーキテクチャを用いたFPGAベースの新しいアクセラレータを提案する。
当社のアクセラレータは、レイテンシのスピードアップを最大79.6倍、CPUが最大18.2倍、CPUが最大1722倍、GPUが最大59.3倍に向上します。
- 参考スコア(独自算出の注目度): 3.1710492369545267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent Neural Networks (RNNs) are vital for sequential data processing. Long Short-Term Memory Autoencoders (LSTM-AEs) are particularly effective for unsupervised anomaly detection in time-series data. However, inherent sequential dependencies limit parallel computation. While previous work has explored FPGA-based acceleration for LSTM networks, efforts have typically focused on optimizing a single LSTM layer at a time. We introduce a novel FPGA-based accelerator using a dataflow architecture that exploits temporal parallelism for concurrent multi-layer processing of different timesteps within sequences. Experimental evaluations on four representative LSTM-AE models with varying widths and depths, implemented on a Zynq UltraScale+ MPSoC FPGA, demonstrate significant advantages over CPU (Intel Xeon Gold 5218R) and GPU (NVIDIA V100) implementations. Our accelerator achieves latency speedups up to 79.6x vs. CPU and 18.2x vs. GPU, alongside energy-per-timestep reductions of up to 1722x vs. CPU and 59.3x vs. GPU. These results, including superior network depth scalability, highlight our approach's potential for high-performance, real-time, power-efficient LSTM-AE-based anomaly detection on FPGAs.
- Abstract(参考訳): 逐次データ処理には、リカレントニューラルネットワーク(RNN)が不可欠である。
長期記憶オートエンコーダ(LSTM-AE)は時系列データにおける教師なし異常検出に特に有効である。
しかし、本質的にシーケンシャルな依存関係は並列計算を制限する。
従来の研究では、LSTMネットワークのFPGAベースのアクセラレーションについて検討してきたが、通常は一度にひとつのLSTM層を最適化することに重点を置いてきた。
本稿では,シーケンス内の異なるタイムステップの同時処理に時間並列性を利用するデータフローアーキテクチャを用いたFPGAベースの新しいアクセラレータを提案する。
Zynq UltraScale+ MPSoC FPGA上に実装されたLSTM-AEモデルの幅と深さの異なる4つのモデルに対する実験的評価は、CPU(Intel Xeon Gold 5218R)とGPU(NVIDIA V100)の実装に対して大きな優位性を示している。
当社のアクセラレータは、レイテンシのスピードアップを最大79.6倍、CPUが最大18.2倍、CPUが最大1722倍、GPUが最大59.3倍に向上します。
これらの結果から,FPGA上での高速,リアルタイム,電力効率のLSTM-AEに基づく異常検出の可能性を明らかにする。
関連論文リスト
- Real-Time Semantic Segmentation on FPGA for Autonomous Vehicles Using LMIINet with the CGRA4ML Framework [0.0]
本稿では,CGRA4MLハードウェアフレームワークを用いたFPGAによるリアルタイムセマンティックセマンティックセマンティクスの実装について述べる。
実装は,ZCU104 FPGA基板上で50.1msのレイテンシで,20フレーム/秒(FPS)でリアルタイムに動作している平均45%,約90%の画素精度を実現している。
論文 参考訳(メタデータ) (2025-10-25T10:16:22Z) - Unlocking Real-Time Fluorescence Lifetime Imaging: Multi-Pixel Parallelism for FPGA-Accelerated Processing [2.369919866595525]
FPGAベースのハードウェアアクセラレーターを用いてリアルタイムFLIを実現する手法を提案する。
我々は、時間分解カメラと互換性のあるFPGAボード上に、GRUベースのシーケンス・ツー・シーケンス(Seq2Seq)モデルを実装した。
GRUベースのSeq2Seqモデルと、Seq2SeqLiteと呼ばれる圧縮されたバージョンを統合することで、複数のピクセルを並列に処理することができ、シーケンシャル処理と比較して遅延を低減できた。
論文 参考訳(メタデータ) (2024-10-09T18:24:23Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。