論文の概要: Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA
Accelerator Architecture for Accelerating Convolutional Neural Network
Inference in Cloud/Edge Computing
- arxiv url: http://arxiv.org/abs/2012.03177v1
- Date: Sun, 6 Dec 2020 03:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:00:58.222302
- Title: Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA
Accelerator Architecture for Accelerating Convolutional Neural Network
Inference in Cloud/Edge Computing
- Title(参考訳): Systolic-CNN: クラウド/エッジコンピューティングにおける畳み込みニューラルネットワーク推論を高速化するOpenCL定義のスケーラブルランタイムフレキシブルFPGAアクセラレータアーキテクチャ
- Authors: Akshay Dua, Yixing Li, Fengbo Ren
- Abstract要約: Systolic-CNNはOpenCLで定義されたスケーラブルでランタイムフレキシブルなFPGAアクセラレータアーキテクチャである。
Systolic-CNNは、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化されている。
- 参考スコア(独自算出の注目度): 8.826181951806928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Systolic-CNN, an OpenCL-defined scalable,
run-time-flexible FPGA accelerator architecture, optimized for accelerating the
inference of various convolutional neural networks (CNNs) in multi-tenancy
cloud/edge computing. The existing OpenCL-defined FPGA accelerators for CNN
inference are insufficient due to limited flexibility for supporting multiple
CNN models at run time and poor scalability resulting in underutilized FPGA
resources and limited computational parallelism. Systolic-CNN adopts a highly
pipelined and paralleled 1-D systolic array architecture, which efficiently
explores both spatial and temporal parallelism for accelerating CNN inference
on FPGAs. Systolic-CNN is highly scalable and parameterized, which can be
easily adapted by users to achieve up to 100% utilization of the coarse-grained
computation resources (i.e., DSP blocks) for a given FPGA. Systolic-CNN is also
run-time-flexible in the context of multi-tenancy cloud/edge computing, which
can be time-shared to accelerate a variety of CNN models at run time without
the need of recompiling the FPGA kernel hardware nor reprogramming the FPGA.
The experiment results based on an Intel Arria/Stratix 10 GX FPGA Development
board show that the optimized single-precision implementation of Systolic-CNN
can achieve an average inference latency of 7ms/2ms, 84ms/33ms, 202ms/73ms,
1615ms/873ms, and 900ms/498ms per image for accelerating AlexNet, ResNet-50,
ResNet-152, RetinaNet, and Light-weight RetinaNet, respectively. Codes are
available at https://github.com/PSCLab-ASU/Systolic-CNN.
- Abstract(参考訳): 本稿では、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化された、OpenCLで定義されたスケーラブルで実行時フレキシブルなFPGAアクセラレータアーキテクチャであるSystolic-CNNを提案する。
既存のCNN推論用OpenCL定義FPGAアクセラレータは、実行時に複数のCNNモデルをサポートする柔軟性の制限とスケーラビリティの低さにより、未使用のFPGAリソースと計算並列性が制限されているため、不十分である。
Systolic-CNNは高パイプラインで並列化された1-D systolic配列アーキテクチャを採用しており、FPGA上のCNN推論を加速するために、空間的および時間的並列性の両方を効率的に探索する。
Systolic-CNNは高度にスケーラブルでパラメータ化されており、ユーザが最大100%の粗粒度計算資源(DSPブロック)を所定のFPGAに利用できるようにすることができる。
また、Systolic-CNNはマルチテナントクラウド/エッジコンピューティングの文脈で実行時フレキシブルであり、FPGAカーネルハードウェアの再コンパイルやFPGAの再プログラミングを必要とせずに、実行時に様々なCNNモデルを高速化するためにタイムシェアすることができる。
実験結果は、Intel Arria/Stratix 10 GX FPGA Development Boardに基づいて、Systolic-CNNの最適化された単一精度実装は、平均推論遅延を7ms/2ms、84ms/33ms、202ms/73ms、1615ms/873ms、900ms/498msで達成し、AlexNet、ResNet-50、ResNet-152、RetinaNet、Light-weight RetinaNetである。
コードはhttps://github.com/PSCLab-ASU/Systolic-CNNで公開されている。
関連論文リスト
- Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - FFCNN: Fast FPGA based Acceleration for Convolution neural network
inference [0.0]
畳み込みニューラルネットワーク(FFCNN)のためのFPGAの高速推論について述べる。
FFCNNは、深くパイプライン化されたOpenCLカーネルアーキテクチャに基づいている。
データ再利用とタスクマッピング技術も設計効率を向上させるために提案されている。
論文 参考訳(メタデータ) (2022-08-28T16:55:25Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network [0.0]
この論文はFPGAベースのCNNアクセラレーションの可能性を探るものである。
Zynq System-on-Chip上でのCNN実装の完全機能を示す。
論文 参考訳(メタデータ) (2020-05-14T11:54:04Z) - CNN2Gate: Toward Designing a General Framework for Implementation of
Convolutional Neural Networks on FPGA [0.3655021726150368]
本稿では,FPGAターゲットに対するCNNモデルのコンパイルを支援する統合フレームワークを提案する。
CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。
本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。
論文 参考訳(メタデータ) (2020-04-06T01:57:53Z) - Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA [2.3395728784538767]
FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、エネルギー効率の向上とレイテンシの低下を実証している。
しかし、CNNパラメータメモリの形状複合体は通常FPGAオンチップメモリ(OCM)にうまくマッピングされない。
FPGA OCMに対するCNNパラメータのマッピング効率を向上させる設計手法を提案する。
論文 参考訳(メタデータ) (2020-03-24T09:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。