論文の概要: Implementation of a framework for deploying AI inference engines in
FPGAs
- arxiv url: http://arxiv.org/abs/2305.19455v1
- Date: Tue, 30 May 2023 23:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:18:27.307143
- Title: Implementation of a framework for deploying AI inference engines in
FPGAs
- Title(参考訳): FPGAにおけるAI推論エンジンのデプロイのためのフレームワークの実装
- Authors: Ryan Herbst, Ryan Coffee, Nathan Fronk, Kukhee Kim, Kuktae Kim, Larry
Ruckman, and J.J. Russell
- Abstract要約: 目標は、最大限のフレームレートを確保しながら、最大レイテンシを実験のニーズに制限することである。
FPGAにおけるDSPとメモリリソースの両方の使用を最適化するためには、量子化により実装されたネットワークの精度を下げる能力が必要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The LCLS2 Free Electron Laser FEL will generate xray pulses to beamline
experiments at up to 1Mhz These experimentals will require new ultrahigh rate
UHR detectors that can operate at rates above 100 kHz and generate data
throughputs upwards of 1 TBs a data velocity which requires prohibitively large
investments in storage infrastructure Machine Learning has demonstrated the
potential to digest large datasets to extract relevant insights however current
implementations show latencies that are too high for realtime data reduction
objectives SLAC has endeavored on the creation of a software framework which
translates MLs structures for deployment on Field Programmable Gate Arrays
FPGAs deployed at the Edge of the data chain close to the instrumentation This
framework leverages Xilinxs HLS framework presenting an API modeled after the
open source Keras interface to the TensorFlow library This SLAC Neural Network
Library SNL framework is designed with a streaming data approach optimizing the
data flow between layers while minimizing the buffer data buffering
requirements The goal is to ensure the highest possible framerate while keeping
the maximum latency constrained to the needs of the experiment Our framework is
designed to ensure the RTL implementation of the network layers supporting full
redeployment of weights and biases without requiring resynthesis after training
The ability to reduce the precision of the implemented networks through
quantization is necessary to optimize the use of both DSP and memory resources
in the FPGA We currently have a preliminary version of the toolset and are
experimenting with both general purpose example networks and networks being
designed for specific LCLS2 experiments.
- Abstract(参考訳): The LCLS2 Free Electron Laser FEL will generate xray pulses to beamline experiments at up to 1Mhz These experimentals will require new ultrahigh rate UHR detectors that can operate at rates above 100 kHz and generate data throughputs upwards of 1 TBs a data velocity which requires prohibitively large investments in storage infrastructure Machine Learning has demonstrated the potential to digest large datasets to extract relevant insights however current implementations show latencies that are too high for realtime data reduction objectives SLAC has endeavored on the creation of a software framework which translates MLs structures for deployment on Field Programmable Gate Arrays FPGAs deployed at the Edge of the data chain close to the instrumentation This framework leverages Xilinxs HLS framework presenting an API modeled after the open source Keras interface to the TensorFlow library This SLAC Neural Network Library SNL framework is designed with a streaming data approach optimizing the data flow between layers while minimizing the buffer data buffering requirements The goal is to ensure the highest possible framerate while keeping the maximum latency constrained to the needs of the experiment Our framework is designed to ensure the RTL implementation of the network layers supporting full redeployment of weights and biases without requiring resynthesis after training The ability to reduce the precision of the implemented networks through quantization is necessary to optimize the use of both DSP and memory resources in the FPGA We currently have a preliminary version of the toolset and are experimenting with both general purpose example networks and networks being designed for specific LCLS2 experiments.
関連論文リスト
- Analysis of Hardware Synthesis Strategies for Machine Learning in Collider Trigger and Data Acquisition [0.0]
機械学習は、インテリジェントなデータ処理と取得のために検出器エレクトロニクスに実装することができる。
衝突時のリアルタイムMLの実装には、ソフトウェアベースのアプローチでは実現不可能な非常に低いレイテンシが必要です。
フィールドプログラマブルゲートアレイにおけるコライダートリガーアルゴリズムの適用に着目し,ニューラルネットワークの推論効率の解析を行った。
論文 参考訳(メタデータ) (2024-11-18T15:59:30Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Semi-Federated Learning: Convergence Analysis and Optimization of A
Hybrid Learning Framework [70.83511997272457]
本稿では,ベースステーション(BS)とデバイスの両方を活用するセミフェデレーション学習(SemiFL)パラダイムを提案し,中央集権学習(CL)とFLのハイブリッド実装を提案する。
我々はこの難解な問題を解くための2段階のアルゴリズムを提案し、ビームフォーマに閉形式解を提供する。
論文 参考訳(メタデータ) (2023-10-04T03:32:39Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - OpenHLS: High-Level Synthesis for Low-Latency Deep Neural Networks for
Experimental Science [0.6571063542099524]
本稿では,ディープニューラルネットワークの高レベル表現を低レベル表現に変換するための,オープンソースの軽量コンパイラフレームワークを提案する。
我々はOpenHLSがスループット4.8$mu$s/sampleでネットワークの実装を作成できることを示した。
論文 参考訳(メタデータ) (2023-02-13T23:25:55Z) - Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。
我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。
リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文 参考訳(メタデータ) (2022-01-18T11:16:59Z) - Accelerating Recurrent Neural Networks for Gravitational Wave
Experiments [1.9263019320519579]
LIGO検出器から時系列データを解析するためのRNN推論を高速化する新しいアーキテクチャを開発した。
このアーキテクチャのためのカスタマイズ可能なテンプレートが設計され、低遅延FPGAの設計が作成できるようになった。
論文 参考訳(メタデータ) (2021-06-26T20:44:02Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - FENXI: Deep-learning Traffic Analytics at the Edge [69.34903175081284]
本稿では,TPUを利用して複雑な解析を行うシステムであるFENXIを提案する。
FENXIは、さまざまな粒度で動作するオペレーションとトラフィック分析を分離する。
分析の結果,FENXIは限られた資源しか必要とせず,転送ラインレートのトラヒック処理を継続できることがわかった。
論文 参考訳(メタデータ) (2021-05-25T08:02:44Z) - Device Sampling for Heterogeneous Federated Learning: Theory,
Algorithms, and Implementation [24.084053136210027]
グラフシーケンシャル畳み込みネットワーク(GCN)に基づくサンプリング手法を開発した。
提案手法は,全機器の5%以下をサンプリングしながら,訓練されたモデル精度と必要なリソース利用の両面で,fedl(federated learning)を実質的に上回っている。
論文 参考訳(メタデータ) (2021-01-04T05:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。