論文の概要: RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge
- arxiv url: http://arxiv.org/abs/2306.06493v1
- Date: Sat, 10 Jun 2023 17:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 18:44:58.823887
- Title: RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge
- Title(参考訳): RAMAN: Edge上の推論のための再構成可能でスパースな小さなMLアクセラレータ
- Authors: Adithya Krishna, Srikanth Rohit Nudurupati, Chandana D G, Pritesh
Dwivedi, Andr\'e van Schaik, Mahesh Mehendale and Chetan Singh Thakur
- Abstract要約: エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
- 参考スコア(独自算出の注目度): 1.8293684411977293
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Neural Network (DNN) based inference at the edge is challenging as these
compute and data-intensive algorithms need to be implemented at low cost and
low power while meeting the latency constraints of the target applications.
Sparsity, in both activations and weights inherent to DNNs, is a key knob to
leverage. In this paper, we present RAMAN, a Re-configurable and spArse tinyML
Accelerator for infereNce on edge, architected to exploit the sparsity to
reduce area (storage), power as well as latency. RAMAN can be configured to
support a wide range of DNN topologies - consisting of different convolution
layer types and a range of layer parameters (feature-map size and the number of
channels). RAMAN can also be configured to support accuracy vs power/latency
tradeoffs using techniques deployed at compile-time and run-time. We present
the salient features of the architecture, provide implementation results and
compare the same with the state-of-the-art. RAMAN employs novel dataflow
inspired by Gustavson's algorithm that has optimal input activation (IA) and
output activation (OA) reuse to minimize memory access and the overall data
movement cost. The dataflow allows RAMAN to locally reduce the partial sum
(Psum) within a processing element array to eliminate the Psum writeback
traffic. Additionally, we suggest a method to reduce peak activation memory by
overlapping IA and OA on the same memory space, which can reduce storage
requirements by up to 50%. RAMAN was implemented on a low-power and
resource-constrained Efinix Ti60 FPGA with 37.2K LUTs and 8.6K register
utilization. RAMAN processes all layers of the MobileNetV1 model at 98.47
GOp/s/W and the DS-CNN model at 79.68 GOp/s/W by leveraging both weight and
activation sparsity.
- Abstract(参考訳): エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムは、ターゲットアプリケーションのレイテンシ制約を満たしながら、低コストで低電力で実装する必要があるため、難しい。
スパシティは、DNN固有のアクティベーションとウェイトの両方において、活用すべき重要なノブである。
本稿では、エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANについて述べる。
RAMANは,さまざまな畳み込みレイヤタイプと,さまざまなレイヤパラメータ(フィーチャーマップサイズとチャネル数)で構成される,幅広いDNNトポロジをサポートするように構成することができる。
RAMANは、コンパイル時および実行時にデプロイされるテクニックを使用して、電力/遅延トレードオフに対する正確性をサポートするように構成することもできる。
我々は、アーキテクチャの優れた特徴を示し、実装結果を提供し、最新技術と比較する。
RAMANはGustavsonのアルゴリズムにインスパイアされた新しいデータフローを採用し、メモリアクセスと全体的なデータ移動コストを最小限に抑えるために、最適な入力アクティベーション(IA)と出力アクティベーション(OA)を再利用する。
データフローにより、RAMANは処理要素配列内の部分和(Psum)を局所的に削減し、Psumの書き込みトラフィックを排除できる。
さらに,同じメモリ空間でiaとoaを重ね合わせることで,最大50%のストレージ要求を削減できるピークアクティベーションメモリの削減方法を提案する。
RAMANは37.2K LUTと8.6Kレジスタを使用した低消費電力かつリソース制約のEfinix Ti60 FPGA上で実装された。
RAMAN は 98.47 GOp/s/W で MobileNetV1 モデルの全層、79.68 GOp/s/W で DS-CNN モデルを処理する。
関連論文リスト
- RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。
本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。
NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-09-27T15:35:36Z) - A Configurable and Efficient Memory Hierarchy for Neural Network Hardware Accelerator [0.6242215470795112]
ディープニューラルネットワーク(DNN)の層ごとの適応型メモリアクセスパターンに適したメモリ階層化フレームワークを提案する。
目的は、必要なメモリ容量を最小化することと、高いアクセラレータ性能を維持することのバランスを最適化することである。
論文 参考訳(メタデータ) (2024-04-24T11:57:37Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Efficient Hardware Acceleration of Sparsely Active Convolutional Spiking
Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、標準のニューラルネットワークよりも効率的な計算を実現するために、イベントベースで計算する。
本稿では,高いアクティベーション間隔を有する畳み込みSNNの処理に最適化された新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-23T14:18:58Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。