Fugu-MT 論文翻訳(概要): Balancing Efficiency and Flexibility for DNN Acceleration via Temporal GPU-Systolic Array Integration

論文の概要: Balancing Efficiency and Flexibility for DNN Acceleration via Temporal GPU-Systolic Array Integration

arxiv url: http://arxiv.org/abs/2002.08326v2
Date: Wed, 10 Jun 2020 10:27:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 20:44:11.602479
Title: Balancing Efficiency and Flexibility for DNN Acceleration via Temporal GPU-Systolic Array Integration
Title（参考訳）: GPU-Systolic Array統合によるDNN加速のバランシング効率とフレキシビリティ
Authors: Cong Guo, Yangjie Zhou, Jingwen Leng, Yuhao Zhu, Zidong Du, Quan Chen, Chao Li, Bin Yao and Minyi Guo
Abstract要約: 本稿では,新しいアーキテクチャ設計・実行モデルである同時多モードアーキテクチャ(SMA)を提案する。 SMAは、エンドツーエンドのアプリケーションを高速化するために、DNNアクセラレーターに汎用的なプログラマビリティを提供する。 SMAは最大63%のパフォーマンス向上を実現し、Volta-Coreのベースラインアーキテクチャよりも23%少ないエネルギーを消費する。
参考スコア（独自算出の注目度）: 22.90145417561172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The research interest in specialized hardware accelerators for deep neural networks (DNN) spikes recently owing to their superior performance and efficiency. However, today's DNN accelerators primarily focus on accelerating specific "kernels" such as convolution and matrix multiplication, which are vital but only part of an end-to-end DNN-enabled application. Meaningful speedups over the entire application often require supporting computations that are, while massively parallel, ill-suited to DNN accelerators. Integrating a general-purpose processor such as a CPU or a GPU incurs significant data movement overhead and leads to resource under-utilization on the DNN accelerators. We propose Simultaneous Multi-mode Architecture (SMA), a novel architecture design and execution model that offers general-purpose programmability on DNN accelerators in order to accelerate end-to-end applications. The key to SMA is the temporal integration of the systolic execution model with the GPU-like SIMD execution model. The SMA exploits the common components shared between the systolic-array accelerator and the GPU, and provides lightweight reconfiguration capability to switch between the two modes in-situ. The SMA achieves up to 63% performance improvement while consuming 23% less energy than the baseline Volta architecture with TensorCore.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)スパイクのための特別なハードウェアアクセラレータに対する研究の関心は最近、パフォーマンスと効率の面で優れています。しかし、今日のDNNアクセラレータは主に、畳み込みや行列乗算のような特定の"カーネル"の加速に焦点を当てている。アプリケーション全体に対する意味のあるスピードアップは、しばしば、非常に並列で、DNNアクセラレータに不適な計算をサポートする必要がある。 CPUやGPUなどの汎用プロセッサを統合すると、データ移動のオーバーヘッドが大きくなり、DNNアクセラレーターのリソース過小評価につながる。エンド・ツー・エンドのアプリケーションを高速化するために,DNNアクセラレータ上で汎用的なプログラマビリティを提供する新しいアーキテクチャ設計と実行モデルであるSMAを提案する。 SMAの鍵は、シストリック実行モデルとGPUのようなSIMD実行モデルとの時間的統合である。 smaはsystolic-arrayアクセラレータとgpuの間で共有される共通コンポーネントを活用し、2つのモードをその場で切り替える軽量な再構成機能を提供する。 SMAは最大63%のパフォーマンス改善を実現し、TensorCoreを使ったベースラインのVoltaアーキテクチャよりも23%少ないエネルギーを消費する。

関連論文リスト

SpikeX: Exploring Accelerator Architecture and Network-Hardware Co-Optimization for Sparse Spiking Neural Networks [3.758294848902233]
本研究では,非構造的空間性から生じる課題と機会に対処するため,Systolic-array SNNアクセラレーターアーキテクチャであるSpikeXを提案する。 SpikeXはメモリアクセスを減らし、データ共有と時間と空間にまたがる計算を対象とするハードウェア利用を増加させる。
論文参考訳（メタデータ） (2025-05-18T08:07:44Z)
InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs [5.762543012823378]
InTARはFPGA上のHDVアプリケーションのための新しいアクセラレータ設計手法である。回路設計の前に決定された静的スケジュールで実行パターンを自動的に切り替える。 InTARは、少ないリソースと低い再構成時間で高いクロック周波数を達成する。
論文参考訳（メタデータ） (2025-02-12T21:43:51Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Spiker+: a framework for the generation of efficient Spiking Neural Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。 Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文参考訳（メタデータ） (2024-01-02T10:42:42Z)
FireFly: A High-Throughput Hardware Accelerator for Spiking Neural Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文参考訳（メタデータ） (2023-01-05T04:28:07Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。 SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文参考訳（メタデータ） (2021-10-01T15:20:29Z)
RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge Intelligence [2.055204980188575]
我々は、RNNAccelと呼ばれるRNNディープラーニングアクセラレータを提示する。 LSTM(Long Short-Term Memory)ネットワーク、GRU(Gated Recurrent Unit)ネットワーク、FC(Fully Connected Layer)/MLP(Multiple-Perceptron Layer)ネットワークをサポートする。 32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスで1.27TOP/W、圧縮比8倍、推測精度90%を達成する。
論文参考訳（メタデータ） (2020-10-26T03:36:36Z)
DANCE: Differentiable Accelerator/Network Co-Exploration [8.540518473228078]
この研究は、ハードウェアアクセラレーターとネットワークアーキテクチャ設計の共同探索に向けた異なるアプローチを示す。ハードウェア評価ソフトウェアをニューラルネットワークでモデル化することにより、アクセラレーションアーキテクチャとハードウェアメトリクスの関係は微分可能となる。提案手法は,既存手法と比較して,精度とハードウェアコストの指標を向上しつつ,比較的短い時間で共同探索を行う。
論文参考訳（メタデータ） (2020-09-14T07:43:27Z)
SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文参考訳（メタデータ） (2020-05-07T12:12:49Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。