論文の概要: EPIM: Efficient Processing-In-Memory Accelerators based on Epitome
- arxiv url: http://arxiv.org/abs/2311.07620v1
- Date: Sun, 12 Nov 2023 17:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:58:03.866893
- Title: EPIM: Efficient Processing-In-Memory Accelerators based on Epitome
- Title(参考訳): epim:エピトームに基づくメモリ内効率的な処理アクセラレータ
- Authors: Chenyu Wang, Zhen Dong, Daquan Zhou, Zhenhua Zhu, Yu Wang, Jiashi
Feng, Kurt Keutzer
- Abstract要約: 我々は、PIMアクセラレーターのためのメモリ効率の良いCNN演算子を構築するために、畳み込みのような機能を提供する軽量神経演算子であるEpitomeを紹介した。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価し,ハードウェア効率を向上させるため,PIM対応層設計手法を導入する。
ハードウェア面では,現在のPIMアクセラレータのデータパスをエピトームに適合させるために修正し,計算コストを削減するために特徴マップの再利用手法を実装した。
- 参考スコア(独自算出の注目度): 82.74500224090265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration of Processing-In-Memory (PIM) accelerators has garnered
significant attention within the research community. However, the utilization
of large-scale neural networks on Processing-In-Memory (PIM) accelerators
encounters challenges due to constrained on-chip memory capacity. To tackle
this issue, current works explore model compression algorithms to reduce the
size of Convolutional Neural Networks (CNNs). Most of these algorithms either
aim to represent neural operators with reduced-size parameters (e.g.,
quantization) or search for the best combinations of neural operators (e.g.,
neural architecture search). Designing neural operators to align with PIM
accelerators' specifications is an area that warrants further study. In this
paper, we introduce the Epitome, a lightweight neural operator offering
convolution-like functionality, to craft memory-efficient CNN operators for PIM
accelerators (EPIM). On the software side, we evaluate epitomes' latency and
energy on PIM accelerators and introduce a PIM-aware layer-wise design method
to enhance their hardware efficiency. We apply epitome-aware quantization to
further reduce the size of epitomes. On the hardware side, we modify the
datapath of current PIM accelerators to accommodate epitomes and implement a
feature map reuse technique to reduce computation cost. Experimental results
reveal that our 3-bit quantized EPIM-ResNet50 attains 71.59% top-1 accuracy on
ImageNet, reducing crossbar areas by 30.65 times. EPIM surpasses the
state-of-the-art pruning methods on PIM.
- Abstract(参考訳): PIM(Processing-In-Memory)アクセラレーターの探索は、研究コミュニティ内で大きな注目を集めている。
しかし、PIM(Processing-In-Memory)アクセラレーターにおける大規模ニューラルネットワークの利用は、オンチップメモリ容量の制約による課題に直面する。
この問題に取り組むため、現在の研究は畳み込みニューラルネットワーク(cnns)のサイズを減らすためにモデル圧縮アルゴリズムを探求している。
これらのアルゴリズムのほとんどは、縮小サイズのパラメータ(例えば量子化)を持つニューラルネットワークの表現や、ニューラルネットワークの最適な組み合わせ(例えば、ニューラルネットワークの検索)の探索を目的としている。
PIMアクセラレーターの仕様に合わせて神経オペレーターを設計することは、さらなる研究を保証している分野である。
本稿では、PIMアクセラレータ(EPIM)のためのメモリ効率の良いCNN演算子を構築するために、畳み込みのような機能を提供する軽量神経演算子であるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータにおけるエピトームのレイテンシとエネルギを評価し,ハードウェア効率を向上させるため,PIM対応層設計手法を導入する。
エピトーム・アウェア・量子化を応用してエピトームのサイズをさらに小さくする。
ハードウェア面では,現在のPIMアクセラレータのデータパスをエピトームに適合させるために修正し,計算コストを削減するために特徴マップ再利用手法を実装した。
実験の結果、我々の3ビット量子化EPIM-ResNet50はImageNetで71.59%の精度を実現し、クロスバー面積を30.65倍削減した。
EPIMはPIMの最先端プルーニング手法を超越している。
関連論文リスト
- Analog Spiking Neuron in CMOS 28 nm Towards Large-Scale Neuromorphic Processors [0.8426358786287627]
本研究では,TSMCの28nmCMOS技術を用いた低消費電力Leaky Integrate- and-Fireニューロンの設計を提案する。
製造されたニューロンは1.61 fJ/スパイクを消費し、34$mu m2$の活性領域を占有し、最大スパイク周波数は250mVで300kHzである。
論文 参考訳(メタデータ) (2024-08-14T17:51:20Z) - Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - The Hardware Impact of Quantization and Pruning for Weights in Spiking
Neural Networks [0.368986335765876]
パラメータの量子化とプルーニングは、モデルサイズを圧縮し、メモリフットプリントを削減し、低レイテンシ実行を容易にする。
本研究では,身近な身近なジェスチャー認識システムであるSNNに対して,孤立度,累積的に,そして同時にプルーニングと量子化の様々な組み合わせについて検討する。
本研究では,3次重みまで精度の低下に悩まされることなく,攻撃的パラメータ量子化に対処可能であることを示す。
論文 参考訳(メタデータ) (2023-02-08T16:25:20Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - A New MRAM-based Process In-Memory Accelerator for Efficient Neural
Network Training with Floating Point Precision [28.458719513745812]
本研究では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。
実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$times$,1.8$times$,2.5$times$をエネルギー,遅延,面積の面で改善できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T04:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。