論文の概要: Neural Network Acceleration on MPSoC board: Integrating SLAC's SNL, Rogue Software and Auto-SNL
- arxiv url: http://arxiv.org/abs/2508.21739v1
- Date: Fri, 29 Aug 2025 16:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.108247
- Title: Neural Network Acceleration on MPSoC board: Integrating SLAC's SNL, Rogue Software and Auto-SNL
- Title(参考訳): MPSoCボード上のニューラルネットワーク高速化:SLACのSNL、Rogue Software、Auto-SNLの統合
- Authors: Hamza Ezzaoui Rahali, Abhilasha Dave, Larry Ruckman, Mohammad Mehdi Rahimifar, Audrey C. Therrien, James J. Russel, Ryan T. Herbst,
- Abstract要約: 本稿では,現在の最先端ツールであるhls4mlに対して,複数のニューラルネットワークアーキテクチャ,固定点精度,合成構成を比較検討する。
SNLは、ほとんどのテスト済みアーキテクチャで競合や優れたレイテンシを実現する一方で、FPGAリソースの節約も提供する場合もある。
この適応はSNLの汎用性を示し、高エネルギー物理学、医用画像、ロボット工学など多くの分野の研究者や研究者に新たな機会を与えている。
- 参考スコア(独自算出の注目度): 0.879504058268139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The LCLS-II Free Electron Laser (FEL) will generate X-ray pulses for beamline experiments at rates of up to 1~MHz, with detectors producing data throughputs exceeding 1 TB/s. Managing such massive data streams presents significant challenges, as transmission and storage infrastructures become prohibitively expensive. Machine learning (ML) offers a promising solution for real-time data reduction, but conventional implementations introduce excessive latency, making them unsuitable for high-speed experimental environments. To address these challenges, SLAC developed the SLAC Neural Network Library (SNL), a specialized framework designed to deploy real-time ML inference models on Field-Programmable Gate Arrays (FPGA). SNL's key feature is the ability to dynamically update model weights without requiring FPGA resynthesis, enhancing flexibility for adaptive learning applications. To further enhance usability and accessibility, we introduce Auto-SNL, a Python extension that streamlines the process of converting Python-based neural network models into SNL-compatible high-level synthesis code. This paper presents a benchmark comparison against hls4ml, the current state-of-the-art tool, across multiple neural network architectures, fixed-point precisions, and synthesis configurations targeting a Xilinx ZCU102 FPGA. The results showed that SNL achieves competitive or superior latency in most tested architectures, while in some cases also offering FPGA resource savings. This adaptation demonstrates SNL's versatility, opening new opportunities for researchers and academics in fields such as high-energy physics, medical imaging, robotics, and many more.
- Abstract(参考訳): LCLS-II Free Electron Laser (FEL)はビームライン実験用のX線パルスを最大1〜MHzの速度で生成し、検出器は1TB/sを超えるデータスループットを生成する。
このような大規模なデータストリームの管理は,トランスミッションやストレージインフラストラクチャが違法に高価になる,という重大な課題を呈する。
機械学習(ML)は、リアルタイムデータ削減に有望なソリューションを提供するが、従来の実装では過度のレイテンシを導入しており、高速な実験環境には適さない。
これらの課題に対処するため、SLACは、フィールド-プログラマブルゲートアレイ(FPGA)上にリアルタイムML推論モデルをデプロイするための特殊なフレームワークであるSLAC Neural Network Library(SNL)を開発した。
SNLの鍵となる機能は、FPGAの再合成を必要とせず、モデルの重みを動的に更新する機能であり、適応学習アプリケーションの柔軟性を向上させることである。
ユーザビリティとアクセシビリティをさらに向上するため,我々は,PythonベースのニューラルネットワークモデルをSNL互換の高レベル合成コードに変換するプロセスを合理化するPython拡張であるAuto-SNLを紹介した。
本稿では、複数のニューラルネットワークアーキテクチャ、固定点精度、およびXilinx ZCU102 FPGAをターゲットにした合成構成において、現在の最先端ツールであるhls4mlのベンチマーク比較を行う。
その結果、SNLは、ほとんどのテスト済みアーキテクチャにおいて、競合や優れたレイテンシを実現する一方で、FPGAリソースの節約も提供することがわかった。
この適応はSNLの汎用性を示し、高エネルギー物理学、医用画像、ロボット工学など多くの分野の研究者や研究者に新たな機会を与えている。
関連論文リスト
- QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - FINN-GL: Generalized Mixed-Precision Extensions for FPGA-Accelerated LSTMs [10.064394911426422]
リカレントニューラルネットワーク(RNN)は、感情分析や短期株価予測といった時系列タスクに有効である。
その計算複雑性は、リソース制約のある環境でのリアルタイムデプロイメントに課題をもたらす。
FPGAはエネルギー効率の高いAIアクセラレーションのための有望なプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-06-25T20:07:46Z) - Analysis of Hardware Synthesis Strategies for Machine Learning in Collider Trigger and Data Acquisition [0.0]
機械学習は、インテリジェントなデータ処理と取得のために検出器エレクトロニクスに実装することができる。
衝突時のリアルタイムMLの実装には、ソフトウェアベースのアプローチでは実現不可能な非常に低いレイテンシが必要です。
フィールドプログラマブルゲートアレイにおけるコライダートリガーアルゴリズムの適用に着目し,ニューラルネットワークの推論効率の解析を行った。
論文 参考訳(メタデータ) (2024-11-18T15:59:30Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - Implementation of a framework for deploying AI inference engines in
FPGAs [0.0]
目標は、最大限のフレームレートを確保しながら、最大レイテンシを実験のニーズに制限することである。
FPGAにおけるDSPとメモリリソースの両方の使用を最適化するためには、量子化により実装されたネットワークの精度を下げる能力が必要である。
論文 参考訳(メタデータ) (2023-05-30T23:37:51Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - SlimFL: Federated Learning with Superposition Coding over Slimmable
Neural Networks [56.68149211499535]
フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。
本稿では、FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2022-03-26T15:06:13Z) - Joint Superposition Coding and Training for Federated Learning over
Multi-Width Neural Networks [52.93232352968347]
本稿では,2つの相乗的技術,フェデレートラーニング(FL)と幅調整可能なスリムブルニューラルネットワーク(SNN)を統合することを目的とする。
FLは、ローカルに訓練されたモバイルデバイスのモデルを交換することによって、データのプライバシを保護している。しかしながら、SNNは、特に時間変化のあるチャネル条件との無線接続下では、非自明である。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2021-12-05T11:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。