論文の概要: Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators
- arxiv url: http://arxiv.org/abs/2207.00068v1
- Date: Thu, 30 Jun 2022 19:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 04:52:27.083036
- Title: Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators
- Title(参考訳): 畳み込みニューラルネットワーク加速器の低レイテンシ化と電力散逸のためのスパース周期シストリックデータフロー
- Authors: Jung Hwan Heo, Arash Fayyazi, Amirhossein Esmaili, Massoud Pedram
- Abstract要約: 本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
- 参考スコア(独自算出の注目度): 3.043665249713003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the sparse periodic systolic (SPS) dataflow, which
advances the state-of-the-art hardware accelerator for supporting lightweight
neural networks. Specifically, the SPS dataflow enables a novel hardware design
approach unlocked by an emergent pruning scheme, periodic pattern-based
sparsity (PPS). By exploiting the regularity of PPS, our sparsity-aware
compiler optimally reorders the weights and uses a simple indexing unit in
hardware to create matches between the weights and activations. Through the
compiler-hardware codesign, SPS dataflow enjoys higher degrees of parallelism
while being free of the high indexing overhead and without model accuracy loss.
Evaluated on popular benchmarks such as VGG and ResNet, the SPS dataflow and
accompanying neural network compiler outperform prior work in convolutional
neural network (CNN) accelerator designs targeting FPGA devices. Against other
sparsity-supporting weight storage formats, SPS results in 4.49x energy
efficiency gain while lowering storage requirements by 3.67x for total weight
storage (non-pruned weights plus indexing) and 22,044x for indexing memory.
- Abstract(参考訳): 本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
具体的には、SPSデータフローは、創発的なプルーニングスキーム、周期的パターンベースのスポーシティ(PPS)によって解放される新しいハードウェア設計アプローチを可能にする。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
コンパイラ・ハードウエアのコードサインを通じて、SPSデータフローは高いインデックス化オーバーヘッドとモデル精度の損失を伴わずに高い並列性を享受する。
vggやresnetのような一般的なベンチマークで評価されたspsデータフローとそれに伴うニューラルネットワークコンパイラは、fpgaデバイスをターゲットにした畳み込みニューラルネットワーク(cnn)アクセラレータ設計の以前の作業よりも優れている。
他の空間的に支持される重量記憶形式に対して、SPSは4.49倍のエネルギー効率向上を達成し、総重量記憶の3.67倍、インデックス化メモリの22,044倍に低下させる。
関連論文リスト
- TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - NPS: A Framework for Accurate Program Sampling Using Graph Neural
Network [23.021249354193305]
本稿では,グラフニューラルネットワークの動的スナップショットを用いて,実行の埋め込みを学習する新しいフレームワークであるNeural Program Sampling(NPS)を紹介する。
AssemblyNetはNPSのグラフモデルとニューラルアーキテクチャとして機能し、プログラムの振る舞いをデータ計算、コードパス、データフローといった面でキャプチャする。
NPSは、コードビヘイビア学習における最先端のGNNアプローチよりも精度と汎用性が高く、高品質な実行埋め込みを生成することができる。
論文 参考訳(メタデータ) (2023-04-18T10:13:28Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Efficient Hardware Acceleration of Sparsely Active Convolutional Spiking
Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、標準のニューラルネットワークよりも効率的な計算を実現するために、イベントベースで計算する。
本稿では,高いアクティベーション間隔を有する畳み込みSNNの処理に最適化された新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-23T14:18:58Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。