論文の概要: A Charge Domain P-8T SRAM Compute-In-Memory with Low-Cost DAC/ADC
Operation for 4-bit Input Processing
- arxiv url: http://arxiv.org/abs/2211.16008v1
- Date: Tue, 29 Nov 2022 08:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:18:13.603494
- Title: A Charge Domain P-8T SRAM Compute-In-Memory with Low-Cost DAC/ADC
Operation for 4-bit Input Processing
- Title(参考訳): 4ビット入力処理のための低コストDAC/ADC動作付きチャージドメインP-8T SRAMコンピュートインメモリ
- Authors: Joonhyung Kim, Kyeongho Lee and Jongsun Park
- Abstract要約: 本稿では,PMOS ベースの 8T (P-8T) Compute-In-Memory (CIM) アーキテクチャを提案する。
4ビットの入力アクティベーションと8ビットの重みの間の乗算累積(MAC)演算を効率よく行う。
28nm CMOSプロセスを用いた256X80 P-8T CIMマクロ実装は、91.46%と66.67%の精度を示している。
- 参考スコア(独自算出の注目度): 4.054285623919103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a low cost PMOS-based 8T (P-8T) SRAM Compute-In-Memory
(CIM) architecture that efficiently per-forms the multiply-accumulate (MAC)
operations between 4-bit input activations and 8-bit weights. First, bit-line
(BL) charge-sharing technique is employed to design the low-cost and reliable
digital-to-analog conversion of 4-bit input activations in the pro-posed SRAM
CIM, where the charge domain analog computing provides variation tolerant and
linear MAC outputs. The 16 local arrays are also effectively exploited to
implement the analog mul-tiplication unit (AMU) that simultaneously produces 16
multipli-cation results between 4-bit input activations and 1-bit weights. For
the hardware cost reduction of analog-to-digital converter (ADC) without
sacrificing DNN accuracy, hardware aware sys-tem simulations are performed to
decide the ADC bit-resolutions and the number of activated rows in the proposed
CIM macro. In addition, for the ADC operation, the AMU-based reference col-umns
are utilized for generating ADC reference voltages, with which low-cost 4-bit
coarse-fine flash ADC has been designed. The 256X80 P-8T SRAM CIM macro
implementation using 28nm CMOS process shows that the proposed CIM shows the
accuracies of 91.46% and 66.67% with CIFAR-10 and CIFAR-100 dataset,
respectively, with the energy efficiency of 50.07-TOPS/W.
- Abstract(参考訳): 本稿では,4ビット入力アクティベーションと8ビット重みのマルチプリアキュムレート(mac)演算を効率的に行う,低コストなpmosベースの8t (p-8t) sramコンピューティング・イン・メモリ(cim)アーキテクチャを提案する。
まず、帯電領域アナログ演算により可変耐性および線形mac出力を提供するsram cimにおいて、4ビット入力アクティベーションの低コストで信頼性の高いデジタル-アナログ変換を設計するために、ビットライン(bl)チャージシェアリング技術を用いる。
16個のローカルアレイも有効に活用され、4ビットの入力アクティベーションと1ビットの重みの間の16個の乗算カチオンを同時に生成するアナログmul-tiplication Unit (AMU)を実装している。
DNN精度を犠牲にすることなく、アナログ・デジタルコンバータ(ADC)のハードウェアコスト削減のために、提案したCIMマクロのADCビット解像度とアクティベート行数を決定するハードウェア・アウェア・サイステンプ・シミュレーションを行う。
また、ADC動作には、AMUベースの参照コロンを用いて、低コストで4ビットの粗いフラッシュADCを設計したADC基準電圧を生成する。
28nm CMOSプロセスを用いた256X80 P-8T SRAM CIMマクロ実装では、CIMはCIFAR-10とCIFAR-100データセットでそれぞれ91.46%と66.67%の精度を示し、エネルギー効率は50.07-TOPS/Wである。
関連論文リスト
- BitNet a4.8: 4-bit Activations for 1-bit LLMs [95.73339037243105]
1ビット大言語モデルの4ビットアクティベーションを可能にするBitNet a4.8を導入する。
我々はBitNet a4.8がBitNet b1.58と同等のトレーニングコストでパフォーマンスを実現することを実証した。
論文 参考訳(メタデータ) (2024-11-07T18:41:50Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - A Pipelined Memristive Neural Network Analog-to-Digital Converter [0.24578723416255754]
本稿では,4ビットコンバータのパイプラインに基づくスケーラブルでモジュール化されたニューラルネットワークADCアーキテクチャを提案する。
8ビットパイプライン ADC は 0.18 LSB INL, 0.20 LSB DNL, 7.6 ENOB, 0.97 fJ/conv FOM を達成する。
論文 参考訳(メタデータ) (2024-06-04T10:51:12Z) - A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory
Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge
Applications [20.74979295607707]
CIMマクロは4x4ビットMAC演算を実行し、9ビット符号付き出力を出力できる。
細胞の無害放電枝を用いて、時間変調MACと9ビットADC読み出し操作を適用する。
論文 参考訳(メタデータ) (2023-07-12T06:20:19Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Massive MIMO As an Extreme Learning Machine [83.12538841141892]
低分解能アナログ・デジタルコンバータ(ADC)を用いたMIMOシステムによる自然極端学習機械(ELM)の試作
受信した信号にランダムなバイアスを加え、ELM出力の重みを最適化することにより、システムはハードウェアの障害に効果的に取り組むことができる。
論文 参考訳(メタデータ) (2020-07-01T04:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。