論文の概要: A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit
for Analog In-Memory Computing
- arxiv url: http://arxiv.org/abs/2402.07549v1
- Date: Mon, 12 Feb 2024 10:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:43:00.771549
- Title: A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit
for Analog In-Memory Computing
- Title(参考訳): アナログインメモリコンピューティングのための精度最適化固定点ニアメモリディジタル処理ユニット
- Authors: Elena Ferro, Athanasios Vasilopoulos, Corey Lammie, Manuel Le Gallo,
Luca Benini, Irem Boybat, Abu Sebastian
- Abstract要約: 固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。
従来の手法よりも競争精度と高い計算スループットを実現している。
我々は,AIMCチップのデータを用いてNMPUの有効性を検証するとともに,提案したNMPUを用いたシミュレーションAIMCシステムが,既存のFP16ベースの実装よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.992736723518036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analog In-Memory Computing (AIMC) is an emerging technology for fast and
energy-efficient Deep Learning (DL) inference. However, a certain amount of
digital post-processing is required to deal with circuit mismatches and
non-idealities associated with the memory devices. Efficient near-memory
digital logic is critical to retain the high area/energy efficiency and low
latency of AIMC. Existing systems adopt Floating Point 16 (FP16) arithmetic
with limited parallelization capability and high latency. To overcome these
limitations, we propose a Near-Memory digital Processing Unit (NMPU) based on
fixed-point arithmetic. It achieves competitive accuracy and higher computing
throughput than previous approaches while minimizing the area overhead.
Moreover, the NMPU supports standard DL activation steps, such as ReLU and
Batch Normalization. We perform a physical implementation of the NMPU design in
a 14 nm CMOS technology and provide detailed performance, power, and area
assessments. We validate the efficacy of the NMPU by using data from an AIMC
chip and demonstrate that a simulated AIMC system with the proposed NMPU
outperforms existing FP16-based implementations, providing 139$\times$
speed-up, 7.8$\times$ smaller area, and a competitive power consumption.
Additionally, our approach achieves an inference accuracy of 86.65 %/65.06 %,
with an accuracy drop of just 0.12 %/0.4 % compared to the FP16 baseline when
benchmarked with ResNet9/ResNet32 networks trained on the CIFAR10/CIFAR100
datasets, respectively.
- Abstract(参考訳): Analog In-Memory Computing (AIMC)は、高速かつエネルギー効率の高いディープラーニング(DL)推論のための新興技術である。
しかし、メモリ装置に関連する回路ミスマッチや非理想性に対処するには、ある程度のデジタル後処理が必要となる。
効率的なニアメモリデジタルロジックは、AIMCの高領域/エネルギー効率と低レイテンシを維持するために重要である。
既存のシステムはFloating Point 16 (FP16)演算を採用しており、並列化能力は限られており、レイテンシも高い。
これらの制限を克服するため,固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。
オーバヘッドを最小限に抑えつつ、競争精度と従来のアプローチよりも高い計算スループットを実現する。
さらに、NMPUはReLUやBatch Normalizationといった標準DLアクティベーションステップをサポートしている。
14nmCMOS技術でNMPUの設計を物理的に実装し,性能,パワー,面積の詳細な評価を行う。
我々は、AIMCチップのデータを用いて、NMPUの有効性を検証するとともに、提案したNMPUによるシミュレーションAIMCシステムが、既存のFP16ベースの実装より優れていることを示す。
さらに,CIFAR10/CIFAR100データセットでトレーニングしたResNet9/ResNet32ネットワークのベンチマークでは,FP16ベースラインに比べて0.12 %/0.4 %の精度低下がみられた。
関連論文リスト
- Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - A Precision-Scalable RISC-V DNN Processor with On-Device Learning
Capability at the Extreme Edge [10.676500459663126]
車両内スマートデバイスのような極端エッジプラットフォームは、量子化されたディープニューラルネットワーク(DNN)の効率的なデプロイを必要とします。
デバイス上での学習機能を備えた高精度RISC-V DNNプロセッサを提案する。
我々のプロセッサは推論スループットを1.6$sim$14.6$times$で、エネルギー効率を1.1$sim$14.6$times$で改善している。
論文 参考訳(メタデータ) (2023-09-15T06:25:10Z) - OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Trimming Feature Extraction and Inference for MCU-based Edge NILM: a
Systematic Approach [14.491636333680297]
非侵入負荷モニタリング(NILM)は、複数の負荷のグローバルな電力消費を、単一のスマート電気メーターから、アプライアンスレベルの詳細に分解することを可能にする。
State-of-the-Artアプローチは機械学習手法に基づいており、電流と電圧センサーからの時間領域と周波数領域の機能の融合を利用する。
低レイテンシNILMを低コストでリソース制約のあるMCUベースのメーターで実行することは、現在オープンな課題である。
本稿では,特徴空間の最適化と,ステート・オブ・ザ・ステートの実行に必要な計算・記憶コストの削減について述べる。
論文 参考訳(メタデータ) (2021-05-21T12:08:16Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。