論文の概要: RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge
Intelligence
- arxiv url: http://arxiv.org/abs/2010.13311v1
- Date: Mon, 26 Oct 2020 03:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:06:13.724153
- Title: RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge
Intelligence
- Title(参考訳): RNNAccel:エッジインテリジェンスのためのフュージョンリカレントニューラルネットワークアクセラレータ
- Authors: Chao-Yang Kao, Huang-Chih Kuo, Jian-Wen Chen, Chiung-Liang Lin,
Pin-Han Chen and Youn-Long Lin
- Abstract要約: 我々は、RNNAccelと呼ばれるRNNディープラーニングアクセラレータを提示する。
LSTM(Long Short-Term Memory)ネットワーク、GRU(Gated Recurrent Unit)ネットワーク、FC(Fully Connected Layer)/MLP(Multiple-Perceptron Layer)ネットワークをサポートする。
32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスで1.27TOP/W、圧縮比8倍、推測精度90%を達成する。
- 参考スコア(独自算出の注目度): 2.055204980188575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many edge devices employ Recurrent Neural Networks (RNN) to enhance their
product intelligence. However, the increasing computation complexity poses
challenges for performance, energy efficiency and product development time. In
this paper, we present an RNN deep learning accelerator, called RNNAccel, which
supports Long Short-Term Memory (LSTM) network, Gated Recurrent Unit (GRU)
network, and Fully Connected Layer (FC)/ Multiple-Perceptron Layer (MLP)
networks. This RNN accelerator addresses (1) computing unit utilization
bottleneck caused by RNN data dependency, (2) inflexible design for specific
applications, (3) energy consumption dominated by memory access, (4) accuracy
loss due to coefficient compression, and (5) unpredictable performance
resulting from processor-accelerator integration. Our proposed RNN accelerator
consists of a configurable 32-MAC array and a coefficient decompression engine.
The MAC array can be scaled-up to meet throughput requirement and power budget.
Its sophisticated off-line compression and simple hardware-friendly on-line
decompression, called NeuCompression, reduces memory footprint up to 16x and
decreases memory access power. Furthermore, for easy SOC integration, we
developed a tool set for bit-accurate simulation and integration result
validation. Evaluated using a keyword spotting application, the 32-MAC RNN
accelerator achieves 90% MAC utilization, 1.27 TOPs/W at 40nm process, 8x
compression ratio, and 90% inference accuracy.
- Abstract(参考訳): 多くのエッジデバイスは製品インテリジェンスを高めるためにリカレントニューラルネットワーク(RNN)を使用している。
しかし、計算複雑性の増大は、パフォーマンス、エネルギー効率、製品開発時間に課題をもたらす。
本稿では,Long Short-Term Memory(LSTM)ネットワーク,Gated Recurrent Unit(GRU)ネットワーク,Fully Connected Layer(FC)/Multiple-Perceptron Layer(MLP)ネットワークをサポートするRNNAccelという,RNNディープラーニングアクセラレータを提案する。
本発明のrnn加速器は、(1)rnnデータ依存によるユニット利用ボトルネック、(2)特定のアプリケーションに対する柔軟性のない設計、(3)メモリアクセスによるエネルギー消費、(4)係数圧縮による精度損失、(5)プロセッサ・アクセラレータ統合による予測不能なパフォーマンスに対処する。
提案するRNN加速器は,構成可能な32-MACアレイと係数圧縮エンジンから構成される。
MACアレイはスループット要件と電力予算を満たすためにスケールアップすることができる。
洗練されたオフライン圧縮と単純なハードウェアフレンドリーなオンライン圧縮であるNeuCompressionは、メモリフットプリントを16倍に減らし、メモリアクセス能力を低下させる。
さらに,SOC統合を容易にするため,ビット精度シミュレーションと統合結果検証のためのツールセットを開発した。
キーワードスポッティングアプリケーションを用いて評価し、32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスでの1.27TOPs/W、8倍の圧縮比、90%の推論精度を達成する。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Lightweight Compression of Intermediate Neural Network Features for
Collaborative Intelligence [32.03465747357384]
協調インテリジェンスアプリケーションでは、ディープニューラルネットワーク(DNN)の一部が携帯電話やエッジデバイスなどの軽量デバイスにデプロイされます。
本稿では,分割DNNの中間層によって出力される特徴を量子化し圧縮する,新しい軽量圧縮技術を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:10:12Z) - Lightweight compression of neural network feature tensors for
collaborative intelligence [32.03465747357384]
協調インテリジェンスアプリケーションでは、ディープニューラルネットワーク(DNN)の一部は、携帯電話やエッジデバイスなどの比較的低い複雑さのデバイスにデプロイされます。
本稿では,スプリットdnn層のアクティベーションをコード化するために設計された新しい軽量圧縮技術を提案する。
論文 参考訳(メタデータ) (2021-05-12T23:41:35Z) - AdderNet and its Minimalist Hardware Design for Energy-Efficient
Artificial Intelligence [111.09105910265154]
アドラー畳み込みニューラルネットワーク(AdderNet)を用いた新しいミニマリストハードウェアアーキテクチャを提案する。
AdderNet全体の16%の高速化を実現している。
我々は、AdderNetが他の競争相手を追い越せると結論付けている。
論文 参考訳(メタデータ) (2021-01-25T11:31:52Z) - Balancing Efficiency and Flexibility for DNN Acceleration via Temporal
GPU-Systolic Array Integration [22.90145417561172]
本稿では,新しいアーキテクチャ設計・実行モデルである同時多モードアーキテクチャ(SMA)を提案する。
SMAは、エンドツーエンドのアプリケーションを高速化するために、DNNアクセラレーターに汎用的なプログラマビリティを提供する。
SMAは最大63%のパフォーマンス向上を実現し、Volta-Coreのベースラインアーキテクチャよりも23%少ないエネルギーを消費する。
論文 参考訳(メタデータ) (2020-02-18T17:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。