論文の概要: Balancing Efficiency and Flexibility for DNN Acceleration via Temporal
GPU-Systolic Array Integration
- arxiv url: http://arxiv.org/abs/2002.08326v2
- Date: Wed, 10 Jun 2020 10:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:44:11.602479
- Title: Balancing Efficiency and Flexibility for DNN Acceleration via Temporal
GPU-Systolic Array Integration
- Title(参考訳): GPU-Systolic Array統合によるDNN加速のバランシング効率とフレキシビリティ
- Authors: Cong Guo, Yangjie Zhou, Jingwen Leng, Yuhao Zhu, Zidong Du, Quan Chen,
Chao Li, Bin Yao and Minyi Guo
- Abstract要約: 本稿では,新しいアーキテクチャ設計・実行モデルである同時多モードアーキテクチャ(SMA)を提案する。
SMAは、エンドツーエンドのアプリケーションを高速化するために、DNNアクセラレーターに汎用的なプログラマビリティを提供する。
SMAは最大63%のパフォーマンス向上を実現し、Volta-Coreのベースラインアーキテクチャよりも23%少ないエネルギーを消費する。
- 参考スコア(独自算出の注目度): 22.90145417561172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research interest in specialized hardware accelerators for deep neural
networks (DNN) spikes recently owing to their superior performance and
efficiency. However, today's DNN accelerators primarily focus on accelerating
specific "kernels" such as convolution and matrix multiplication, which are
vital but only part of an end-to-end DNN-enabled application. Meaningful
speedups over the entire application often require supporting computations that
are, while massively parallel, ill-suited to DNN accelerators. Integrating a
general-purpose processor such as a CPU or a GPU incurs significant data
movement overhead and leads to resource under-utilization on the DNN
accelerators.
We propose Simultaneous Multi-mode Architecture (SMA), a novel architecture
design and execution model that offers general-purpose programmability on DNN
accelerators in order to accelerate end-to-end applications. The key to SMA is
the temporal integration of the systolic execution model with the GPU-like SIMD
execution model. The SMA exploits the common components shared between the
systolic-array accelerator and the GPU, and provides lightweight
reconfiguration capability to switch between the two modes in-situ. The SMA
achieves up to 63% performance improvement while consuming 23% less energy than
the baseline Volta architecture with TensorCore.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)スパイクのための特別なハードウェアアクセラレータに対する研究の関心は最近、パフォーマンスと効率の面で優れています。
しかし、今日のDNNアクセラレータは主に、畳み込みや行列乗算のような特定の"カーネル"の加速に焦点を当てている。
アプリケーション全体に対する意味のあるスピードアップは、しばしば、非常に並列で、DNNアクセラレータに不適な計算をサポートする必要がある。
CPUやGPUなどの汎用プロセッサを統合すると、データ移動のオーバーヘッドが大きくなり、DNNアクセラレーターのリソース過小評価につながる。
エンド・ツー・エンドのアプリケーションを高速化するために,DNNアクセラレータ上で汎用的なプログラマビリティを提供する新しいアーキテクチャ設計と実行モデルであるSMAを提案する。
SMAの鍵は、シストリック実行モデルとGPUのようなSIMD実行モデルとの時間的統合である。
smaはsystolic-arrayアクセラレータとgpuの間で共有される共通コンポーネントを活用し、2つのモードをその場で切り替える軽量な再構成機能を提供する。
SMAは最大63%のパフォーマンス改善を実現し、TensorCoreを使ったベースラインのVoltaアーキテクチャよりも23%少ないエネルギーを消費する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge
Intelligence [2.055204980188575]
我々は、RNNAccelと呼ばれるRNNディープラーニングアクセラレータを提示する。
LSTM(Long Short-Term Memory)ネットワーク、GRU(Gated Recurrent Unit)ネットワーク、FC(Fully Connected Layer)/MLP(Multiple-Perceptron Layer)ネットワークをサポートする。
32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスで1.27TOP/W、圧縮比8倍、推測精度90%を達成する。
論文 参考訳(メタデータ) (2020-10-26T03:36:36Z) - DANCE: Differentiable Accelerator/Network Co-Exploration [8.540518473228078]
この研究は、ハードウェアアクセラレーターとネットワークアーキテクチャ設計の共同探索に向けた異なるアプローチを示す。
ハードウェア評価ソフトウェアをニューラルネットワークでモデル化することにより、アクセラレーションアーキテクチャとハードウェアメトリクスの関係は微分可能となる。
提案手法は,既存手法と比較して,精度とハードウェアコストの指標を向上しつつ,比較的短い時間で共同探索を行う。
論文 参考訳(メタデータ) (2020-09-14T07:43:27Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。