論文の概要: Low Latency CMOS Hardware Acceleration for Fully Connected Layers in
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2011.12839v1
- Date: Wed, 25 Nov 2020 15:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:46:21.417186
- Title: Low Latency CMOS Hardware Acceleration for Fully Connected Layers in
Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける完全接続層に対する低レイテンシcmosハードウェアアクセラレーション
- Authors: Nick Iliev and Amit Ranjan Trivedi
- Abstract要約: FCアクセラレータFC-ACCLは、行列ベクトル乗算のための1288x8または16x16の処理要素に基づいている。
この設計は、大きなFC6層の遅延をAlexNetで60%削減し、代替のEIEソリューションと比較してVGG16で3パーセント削減することができる。
- 参考スコア(独自算出の注目度): 1.9036571490366496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel low latency CMOS hardware accelerator for fully connected
(FC) layers in deep neural networks (DNNs). The FC accelerator, FC-ACCL, is
based on 128 8x8 or 16x16 processing elements (PEs) for matrix-vector
multiplication, and 128 multiply-accumulate (MAC) units integrated with 128
High Bandwidth Memory (HBM) units for storing the pretrained weights.
Micro-architectural details for CMOS ASIC implementations are presented and
simulated performance is compared to recent hardware accelerators for DNNs for
AlexNet and VGG 16. When comparing simulated processing latency for a 4096-1000
FC8 layer, our FC-ACCL is able to achieve 48.4 GOPS (with a 100 MHz clock)
which improves on a recent FC8 layer accelerator quoted at 28.8 GOPS with a 150
MHz clock. We have achieved this considerable improvement by fully utilizing
the HBM units for storing and reading out column-specific FClayer weights in 1
cycle with a novel colum-row-column schedule, and implementing a maximally
parallel datapath for processing these weights with the corresponding MAC and
PE units. When up-scaled to 128 16x16 PEs, for 16x16 tiles of weights, the
design can reduce latency for the large FC6 layer by 60 % in AlexNet and by 3 %
in VGG16 when compared to an alternative EIE solution which uses compression.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)における完全連結層(FC)層のための新しい低レイテンシCMOSハードウェアアクセラレータを提案する。
FCアクセラレータFC-ACCLは、行列ベクトル乗算のための1288x8または16x16の処理要素(PE)と、128の乗算累積(MAC)ユニットを128の高帯域メモリ(HBM)ユニットに統合し、予め訓練された重量を記憶する。
CMOS ASIC実装のマイクロアーキテクチャの詳細を提示し、AlexNetとVGG 16のDNN用ハードウェアアクセラレータと比較した。
4096-1000 FC8 層のシミュレーション処理遅延を比較すると、FC-ACCL は 48.4 GOPS (100 MHzクロック) を達成することができ、最近の FC8 層加速器では 28.8 GOPS と 150 MHz クロックが出力される。
我々は,カラム・ロー・カラム・スケジュールを1サイクルで保持し,読み出すためのHBMユニットを十分に活用し,対応するMACおよびPEユニットでこれらの重みを処理するための最大並列データパスを実装することで,この大幅な改善を実現した。
重量16x16タイルの128 x 16 PEへのスケールアップでは、圧縮を使用する代替のEIEソリューションと比較して、AlexNetでは60%、VGG16では3%の遅延を削減できる。
関連論文リスト
- H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。