Fugu-MT 論文翻訳(概要): A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit for Analog In-Memory Computing

論文の概要: A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit for Analog In-Memory Computing

arxiv url: http://arxiv.org/abs/2402.07549v1
Date: Mon, 12 Feb 2024 10:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 14:43:00.771549
Title: A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit for Analog In-Memory Computing
Title（参考訳）: アナログインメモリコンピューティングのための精度最適化固定点ニアメモリディジタル処理ユニット
Authors: Elena Ferro, Athanasios Vasilopoulos, Corey Lammie, Manuel Le Gallo, Luca Benini, Irem Boybat, Abu Sebastian
Abstract要約: 固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。従来の手法よりも競争精度と高い計算スループットを実現している。我々は,AIMCチップのデータを用いてNMPUの有効性を検証するとともに,提案したNMPUを用いたシミュレーションAIMCシステムが,既存のFP16ベースの実装よりも優れていることを示す。
参考スコア（独自算出の注目度）: 10.992736723518036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Analog In-Memory Computing (AIMC) is an emerging technology for fast and energy-efficient Deep Learning (DL) inference. However, a certain amount of digital post-processing is required to deal with circuit mismatches and non-idealities associated with the memory devices. Efficient near-memory digital logic is critical to retain the high area/energy efficiency and low latency of AIMC. Existing systems adopt Floating Point 16 (FP16) arithmetic with limited parallelization capability and high latency. To overcome these limitations, we propose a Near-Memory digital Processing Unit (NMPU) based on fixed-point arithmetic. It achieves competitive accuracy and higher computing throughput than previous approaches while minimizing the area overhead. Moreover, the NMPU supports standard DL activation steps, such as ReLU and Batch Normalization. We perform a physical implementation of the NMPU design in a 14 nm CMOS technology and provide detailed performance, power, and area assessments. We validate the efficacy of the NMPU by using data from an AIMC chip and demonstrate that a simulated AIMC system with the proposed NMPU outperforms existing FP16-based implementations, providing 139$\times$ speed-up, 7.8$\times$ smaller area, and a competitive power consumption. Additionally, our approach achieves an inference accuracy of 86.65 %/65.06 %, with an accuracy drop of just 0.12 %/0.4 % compared to the FP16 baseline when benchmarked with ResNet9/ResNet32 networks trained on the CIFAR10/CIFAR100 datasets, respectively.
Abstract（参考訳）: Analog In-Memory Computing (AIMC)は、高速かつエネルギー効率の高いディープラーニング(DL)推論のための新興技術である。しかし、メモリ装置に関連する回路ミスマッチや非理想性に対処するには、ある程度のデジタル後処理が必要となる。効率的なニアメモリデジタルロジックは、AIMCの高領域/エネルギー効率と低レイテンシを維持するために重要である。既存のシステムはFloating Point 16 (FP16)演算を採用しており、並列化能力は限られており、レイテンシも高い。これらの制限を克服するため,固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。オーバヘッドを最小限に抑えつつ、競争精度と従来のアプローチよりも高い計算スループットを実現する。さらに、NMPUはReLUやBatch Normalizationといった標準DLアクティベーションステップをサポートしている。 14nmCMOS技術でNMPUの設計を物理的に実装し,性能,パワー,面積の詳細な評価を行う。我々は、AIMCチップのデータを用いて、NMPUの有効性を検証するとともに、提案したNMPUによるシミュレーションAIMCシステムが、既存のFP16ベースの実装より優れていることを示す。さらに,CIFAR10/CIFAR100データセットでトレーニングしたResNet9/ResNet32ネットワークのベンチマークでは,FP16ベースラインに比べて0.12 %/0.4 %の精度低下がみられた。

関連論文リスト

PACiM: A Sparsity-Centric Hybrid Compute-in-Memory Architecture via Probabilistic Approximation [1.2848824355101671]
本稿では,従来の手法に比べて近似誤差を4倍に削減する新しい確率近似計算法を提案する。 PACは、複雑なMACベクトル計算をスカラー計算に単純化することにより、計算インメモリ(CiM)システムにおける効率の良いスペーサ性ベースの計算を可能にする。 PACiMは、スペーサをフル活用してビットシリアルサイクルを81%削減し、65nmCMOSで14.63TOPS/Wのピーク8b/8b効率を実現する。
論文参考訳（メタデータ） (2024-08-29T03:58:19Z)
StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators [5.245727758971415]
ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
論文参考訳（メタデータ） (2024-07-17T07:56:43Z)
Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文参考訳（メタデータ） (2024-01-23T10:27:38Z)
Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。有望な解決策の1つは、アナログコンピューティングを再考することである。ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文参考訳（メタデータ） (2023-11-13T08:59:01Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文参考訳（メタデータ） (2023-06-08T13:11:20Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文参考訳（メタデータ） (2022-05-18T17:49:49Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。脳波信号を分類するためのディープラーニングモデルが登場した。これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文参考訳（メタデータ） (2020-04-24T12:29:03Z)
ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。 DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。 14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文参考訳（メタデータ） (2020-03-25T07:54:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。