論文の概要: N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based
Heterogeneous Computing Cores
- arxiv url: http://arxiv.org/abs/2112.08193v1
- Date: Wed, 15 Dec 2021 15:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 18:47:57.340391
- Title: N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based
Heterogeneous Computing Cores
- Title(参考訳): N3H-Core:FPGAベースの異種コンピューティングコアによるニューロン設計ニューラルネットワーク加速器
- Authors: Yu Gong, Zhihan Xu, Zhezhi He, Weifeng Zhang, Xiaobing Tu, Xiaoyao
Liang, Li Jiang
- Abstract要約: FPGAを用いたニューラルネットワーク高速化のための異種計算システムを開発した。
提案するアクセラレータは、DSPとLUTをベースとしたGEMM(GEneral Matrix-Multiplication)コンピューティングコアで構成されている。
我々の設計では、最新のMix&Match設計よりも遅延が1.12-1.32x削減され、推論精度が向上した。
- 参考スコア(独自算出の注目度): 26.38812379700231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accelerating the neural network inference by FPGA has emerged as a popular
option, since the reconfigurability and high performance computing capability
of FPGA intrinsically satisfies the computation demand of the fast-evolving
neural algorithms. However, the popular neural accelerators on FPGA (e.g.,
Xilinx DPU) mainly utilize the DSP resources for constructing their processing
units, while the rich LUT resources are not well exploited. Via the
software-hardware co-design approach, in this work, we develop an FPGA-based
heterogeneous computing system for neural network acceleration. From the
hardware perspective, the proposed accelerator consists of DSP- and LUT-based
GEneral Matrix-Multiplication (GEMM) computing cores, which forms the entire
computing system in a heterogeneous fashion. The DSP- and LUT-based GEMM cores
are computed w.r.t a unified Instruction Set Architecture (ISA) and unified
buffers. Along the data flow of the neural network inference path, the
computation of the convolution/fully-connected layer is split into two
portions, handled by the DSP- and LUT-based GEMM cores asynchronously. From the
software perspective, we mathematically and systematically model the latency
and resource utilization of the proposed heterogeneous accelerator, regarding
varying system design configurations. Through leveraging the reinforcement
learning technique, we construct a framework to achieve end-to-end selection
and optimization of the design specification of target heterogeneous
accelerator, including workload split strategy, mixed-precision quantization
scheme, and resource allocation of DSP- and LUT-core. In virtue of the proposed
design framework and heterogeneous computing system, our design outperforms the
state-of-the-art Mix&Match design with latency reduced by 1.12-1.32x with
higher inference accuracy. The N3H-core is open-sourced at:
https://github.com/elliothe/N3H_Core.
- Abstract(参考訳): FPGAの再構成可能性とハイパフォーマンスコンピューティング能力は、高速進化するニューラルネットワークの計算要求を本質的に満足しているため、FPGAによるニューラルネットワーク推論の高速化が一般的な選択肢として浮上している。
しかし、FPGA上の一般的な神経アクセラレータ(例えばXilinx DPU)は主にDSPリソースを使用して処理ユニットを構築するが、リッチなLUTリソースは十分に活用されていない。
本研究では,ソフトウェア・ハードウェア共同設計手法を用いて,ニューラルネットワークアクセラレーションのためのFPGAベースの異種コンピューティングシステムを開発する。
ハードウェアの観点から、提案する加速器は、dspおよびlutベースのgemm(general matrix-multiplication)コンピューティングコアで構成され、コンピュータシステム全体を異質な方法で構成する。
DSPおよびLUTベースのGEMMコアは、統一命令セットアーキテクチャ(ISA)と統一バッファで計算される。
ニューラルネットワーク推論パスのデータフローに沿って、畳み込み/全接続された層の計算を2つの部分に分割し、DSPおよびLUTベースのGEMMコアで非同期に処理する。
ソフトウェアの観点からは,システム設計構成の異なる異種加速器の遅延と資源利用を数学的・体系的にモデル化する。
強化学習手法を活用し,ワークロード分割戦略,混合精度量子化手法,dspコアとlutコアのリソース割り当てなど,目標ヘテロジニアスアクセラレータの設計仕様のエンドツーエンド選択と最適化を実現するフレームワークを構築した。
提案した設計フレームワークとヘテロジニアスコンピューティングシステムにより,提案設計は最新のMix&Match設計よりも高い精度で1.12-1.32倍のレイテンシで性能を向上する。
N3Hコアは、https://github.com/elliothe/N3H_Coreでオープンソース化されている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Harnessing FPGA Technology for Enhanced Biomedical Computation [0.0]
この研究は、CNN、Recurrent Neural Networks (RNN)、Long Short-Term Memory Networks (LSTMs)、Deep Belief Networks (DBNs)のような洗練されたニューラルネットワークフレームワークを掘り下げる。
レイテンシやスループットなどの性能指標を評価することにより,高度なバイオメディカルコンピューティングにおけるFPGAの有効性を示す。
論文 参考訳(メタデータ) (2023-11-21T08:51:58Z) - Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。
我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。
この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文 参考訳(メタデータ) (2023-07-16T01:20:17Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。
我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。
リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文 参考訳(メタデータ) (2022-01-18T11:16:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文 参考訳(メタデータ) (2019-12-31T21:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。