論文の概要: IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping
- arxiv url: http://arxiv.org/abs/2412.19750v1
- Date: Fri, 27 Dec 2024 17:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:14.716408
- Title: IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping
- Title(参考訳): IMAGINE: 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator with a End-to-End Analog Charge-based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping
- Authors: Adrian Kneip, Martin Lefebvre, Pol Maistriaux, David Bol,
- Abstract要約: 作業負荷適応型1-to-8b CIM-CNNアクセラレータであるIMAGINEを22nm FD-SOIで紹介する。
1152x256のエンドツーエンドのチャージベースマクロと、パワーハングリーDACを回避する入力シリアル、ウェイトパラレルの蓄積に基づくマルチビットDPを導入している。
測定結果は、MNISTとCIFAR-10の競争力を持つ、0.3/0.6Vで40TOPS/Wの8b系レベルのエネルギー効率を示す。
- 参考スコア(独自算出の注目度): 0.6071203743728119
- License:
- Abstract: Charge-domain compute-in-memory (CIM) SRAMs have recently become an enticing compromise between computing efficiency and accuracy to process sub-8b convolutional neural networks (CNNs) at the edge. Yet, they commonly make use of a fixed dot-product (DP) voltage swing, which leads to a loss in effective ADC bits due to data-dependent clipping or truncation effects that waste precious conversion energy and computing accuracy. To overcome this, we present IMAGINE, a workload-adaptive 1-to-8b CIM-CNN accelerator in 22nm FD-SOI. It introduces a 1152x256 end-to-end charge-based macro with a multi-bit DP based on an input-serial, weight-parallel accumulation that avoids power-hungry DACs. An adaptive swing is achieved by combining a channel-wise DP array split with a linear in-ADC implementation of analog batch-normalization (ABN), obtaining a distribution-aware data reshaping. Critical design constraints are relaxed by including the post-silicon equivalent noise within a CIM-aware CNN training framework. Measurement results showcase an 8b system-level energy efficiency of 40TOPS/W at 0.3/0.6V, with competitive accuracies on MNIST and CIFAR-10. Moreover, the peak energy and area efficiencies of the 187kB/mm2 macro respectively reach up to 0.15-8POPS/W and 2.6-154TOPS/mm2, scaling with the 8-to-1b computing precision. These results exceed previous charge-based designs by 3-to-5x while being the first work to provide linear in-memory rescaling.
- Abstract(参考訳): チャージドメイン・コンピュート・イン・メモリ(CIM) SRAMは、最近、エッジでサブ8b畳み込みニューラルネットワーク(CNN)を処理するために、計算効率と精度の妥協点となっている。
しかし、それらは一般に固定ドット積(DP)電圧スイングを利用しており、これはデータ依存のクリッピングやトランケーション効果により、貴重な変換エネルギーを無駄にし、計算精度を低下させるため、有効なADCビットが失われる。
これを解決するために、22nm FD-SOIのワークロード適応型1-to-8b CIM-CNNアクセラレータIMAGINEを提案する。
1152x256のエンドツーエンドのチャージベースマクロと、パワーハングリーDACを回避する入力シリアル、ウェイトパラレルの蓄積に基づくマルチビットDPを導入している。
チャネルワイドDPアレイ分割とアナログバッチ正規化(ABN)の線形内ADC実装を組み合わせることで適応スイングを実現し、分散対応データ再構成を実現する。
臨界設計制約は、CIM対応のCNNトレーニングフレームワークに、シリコン後等価ノイズを含めることで緩和される。
測定結果は、MNISTとCIFAR-10の競争力を持つ、0.3/0.6Vで40TOPS/Wの8b系レベルのエネルギー効率を示す。
さらに、187kB/mm2マクロのピークエネルギーと面積効率はそれぞれ0.15-8POPS/Wと2.6-154TOPS/mm2に達し、8-to-1bの計算精度でスケールする。
これらの結果は、線形インメモリ再スケーリングを提供する最初の作業でありながら、以前の3~5倍の電荷ベースの設計を上回った。
関連論文リスト
- Joint Transmit and Pinching Beamforming for PASS: Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators [5.245727758971415]
ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
論文 参考訳(メタデータ) (2024-07-17T07:56:43Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - A Charge Domain P-8T SRAM Compute-In-Memory with Low-Cost DAC/ADC
Operation for 4-bit Input Processing [4.054285623919103]
本稿では,PMOS ベースの 8T (P-8T) Compute-In-Memory (CIM) アーキテクチャを提案する。
4ビットの入力アクティベーションと8ビットの重みの間の乗算累積(MAC)演算を効率よく行う。
28nm CMOSプロセスを用いた256X80 P-8T CIMマクロ実装は、91.46%と66.67%の精度を示している。
論文 参考訳(メタデータ) (2022-11-29T08:15:27Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - Interconnect Parasitics and Partitioning in Fully-Analog In-Memory
Computing Architectures [0.0]
完全アナログIMCアーキテクチャに実装したディープニューラルネットワーク(DNN)モデルの精度に及ぼすワイヤ寄生抵抗と容量の影響について検討した。
本稿では,アナログ領域における計算を保ちながら寄生虫の影響を軽減するための分配機構を提案する。
分割処理に要する余分な回路により,高消費電力化による精度の向上が期待できる。
論文 参考訳(メタデータ) (2022-01-29T02:29:27Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。