論文の概要: FINN-GL: Generalized Mixed-Precision Extensions for FPGA-Accelerated LSTMs
- arxiv url: http://arxiv.org/abs/2506.20810v1
- Date: Wed, 25 Jun 2025 20:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.874736
- Title: FINN-GL: Generalized Mixed-Precision Extensions for FPGA-Accelerated LSTMs
- Title(参考訳): FINN-GL:FPGA加速LSTMのための一般化混合精度拡張
- Authors: Shashwat Khandelwal, Jakoba Petri-Koenig, Thomas B. Preußer, Michaela Blott, Shreejith Shanker,
- Abstract要約: リカレントニューラルネットワーク(RNN)は、感情分析や短期株価予測といった時系列タスクに有効である。
その計算複雑性は、リソース制約のある環境でのリアルタイムデプロイメントに課題をもたらす。
FPGAはエネルギー効率の高いAIアクセラレーションのための有望なプラットフォームを提供する。
- 参考スコア(独自算出の注目度): 10.064394911426422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent neural networks (RNNs), particularly LSTMs, are effective for time-series tasks like sentiment analysis and short-term stock prediction. However, their computational complexity poses challenges for real-time deployment in resource constrained environments. While FPGAs offer a promising platform for energy-efficient AI acceleration, existing tools mainly target feed-forward networks, and LSTM acceleration typically requires full custom implementation. In this paper, we address this gap by leveraging the open-source and extensible FINN framework to enable the generalized deployment of LSTMs on FPGAs. Specifically, we leverage the Scan operator from the Open Neural Network Exchange (ONNX) specification to model the recurrent nature of LSTM computations, enabling support for mixed quantisation within them and functional verification of LSTM-based models. Furthermore, we introduce custom transformations within the FINN compiler to map the quantised ONNX computation graph to hardware blocks from the HLS kernel library of the FINN compiler and Vitis HLS. We validate the proposed tool-flow by training a quantised ConvLSTM model for a mid-price stock prediction task using the widely used dataset and generating a corresponding hardware IP of the model using our flow, targeting the XCZU7EV device. We show that the generated quantised ConvLSTM accelerator through our flow achieves a balance between performance (latency) and resource consumption, while matching (or bettering) inference accuracy of state-of-the-art models with reduced precision. We believe that the generalisable nature of the proposed flow will pave the way for resource-efficient RNN accelerator designs on FPGAs.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)、特にLSTMは、感情分析や短期株価予測といった時系列タスクに有効である。
しかし、その計算複雑性は、リソース制約のある環境でのリアルタイムなデプロイに困難をもたらす。
FPGAは、エネルギー効率の高いAIアクセラレーションのための有望なプラットフォームを提供するが、既存のツールは、主にフィードフォワードネットワークをターゲットにしており、LSTMアクセラレーションは、通常、完全なカスタム実装を必要とする。
本稿では,オープンソースかつ拡張可能なFINNフレームワークを活用して,FPGA上でのLSTMの汎用展開を実現することにより,このギャップに対処する。
具体的には、Open Neural Network Exchange (ONNX)仕様のScan演算子を利用して、LSTM計算の繰り返しの性質をモデル化し、それらの内における混合量子化とLSTMモデルの機能検証を可能にする。
さらに、FINNコンパイラのHLSカーネルライブラリとVitis HLSのハードウェアブロックに量子化されたONNX計算グラフをマッピングするために、FINNコンパイラ内のカスタム変換を導入する。
提案したツールフローは、広く使われているデータセットを用いて、中価格ストック予測タスクのための定量ConvLSTMモデルをトレーニングし、XCZU7EVデバイスをターゲットにしたフローを用いて、モデルに対応するハードウェアIPを生成することで検証する。
本研究では,我々の流れから生成した量子化ConvLSTM加速器が性能(レイテンシ)と資源消費のバランスを保ちつつ,精度の低下した最先端モデルの推論精度を一致(あるいは向上)することを示した。
提案するフローの一般性は,FPGA上での資源効率の高いRNN加速器設計の道を開くものと信じている。
関連論文リスト
- Intelligent4DSE: Optimizing High-Level Synthesis Design Space Exploration with Graph Neural Networks and Large Language Models [3.8429489584622156]
我々は,タスク適応型メッセージパッシングと大規模言語モデル拡張進化アルゴリズムをグラフニューラルネットワークに統合するフレームワークであるCoGNNs-LLMEAを提案する。
予測モデルとして、CoGNNはコンパイラフロントエンド処理後にソースコードから生成された中間表現を直接利用し、HLSツールを起動することなく結果の品質(QoR)の予測を可能にする。
CoGNNは、HLS後のQoR予測における最先端予測精度を実現し、平均予測誤差を2.8$times$と3.4$times$で削減する。
論文 参考訳(メタデータ) (2025-04-28T10:08:56Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。
我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。
この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文 参考訳(メタデータ) (2023-07-16T01:20:17Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。
我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。
リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文 参考訳(メタデータ) (2022-01-18T11:16:59Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。