論文の概要: MAC-DO: Charge Based Multi-Bit Analog In-Memory Accelerator Compatible
with DRAM Using Output Stationary Mapping
- arxiv url: http://arxiv.org/abs/2207.07862v1
- Date: Sat, 16 Jul 2022 07:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:13:04.746382
- Title: MAC-DO: Charge Based Multi-Bit Analog In-Memory Accelerator Compatible
with DRAM Using Output Stationary Mapping
- Title(参考訳): mac-do:出力定常マッピングを用いたdram対応の電荷型マルチビットアナログインメモリアクセラレータ
- Authors: Minki Jeong, Wanyeong Jung
- Abstract要約: 本稿では,MAC-DO をベースとしたアナログ乗算蓄積型メモリアーキテクチャを提案する。
16 x 16 MAC-DOセルを持つテストアレイは188.7 TOPS/Wを実現し、MNISTデータセットの97.07%のTop-1精度を示す。
- 参考スコア(独自算出の注目度): 5.3175489696423766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNN) have been proved for its effectiveness in various
areas such as classification problems, image processing, video segmentation,
and speech recognition. The accelerator-in-memory (AiM) architectures are a
promising solution to efficiently accelerate DNNs as they can avoid the memory
bottleneck of the traditional von Neumann architecture. As the main memory is
usually DRAM in many systems, a highly parallel multiply-accumulate (MAC) array
within the DRAM can maximize the benefit of AiM by reducing both the distance
and amount of data movement between the processor and the main memory. This
paper presents an analog MAC array based AiM architecture named MAC-DO. In
contrast with previous in-DRAM accelerators, MAC-DO makes an entire DRAM array
participate in MAC computations simultaneously without idle cells, leading to
higher throughput and energy efficiency. This improvement is made possible by
exploiting a new analog computation method based on charge steering. In
addition, MAC-DO innately supports multi-bit MACs with good linearity. MAC-DO
is still compatible with current 1T1C DRAM technology without any modifications
of a DRAM cell and array. A MAC-DO array can accelerate matrix multiplications
based on output stationary mapping and thus supports most of the computations
performed in DNNs. Our evaluation using transistor-level simulation shows that
a test MAC-DO array with 16 x 16 MAC-DO cells achieves 188.7 TOPS/W, and shows
97.07% Top-1 accuracy for MNIST dataset without retraining.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、分類問題、画像処理、ビデオセグメンテーション、音声認識など、様々な分野で有効であることが証明されている。
アクセル・イン・メモリ(AiM)アーキテクチャは、従来のフォン・ノイマンアーキテクチャのメモリボトルネックを回避するため、DNNを効率的に高速化する有望なソリューションである。
多くのシステムではメインメモリがDRAMであるため、DRAM内の高並列多重累積(MAC)アレイは、プロセッサとメインメモリ間のデータ移動距離と量の両方を減らし、AiMの利点を最大化することができる。
本稿では、MAC-DOというアナログMACアレイに基づくAiMアーキテクチャを提案する。
従来のDRAMアクセラレータとは対照的に、MAC-DOはDRAMアレイ全体をアイドルセルなしでMAC計算に同時に参加させ、高いスループットとエネルギー効率をもたらす。
この改善は、電荷ステアリングに基づく新しいアナログ計算法を利用して実現されている。
さらにMAC-DOは、本質的には線形性の良いマルチビットMACをサポートする。
MAC-DOは、DRAMセルとアレイを一切変更することなく、現在の1T1C DRAM技術と互換性がある。
MAC-DO配列は、出力定常写像に基づいて行列乗算を加速し、DNNで実行される計算の大部分をサポートする。
トランジスタレベルのシミュレーションにより、16 x 16 MAC-DOセルを用いたテストMAC-DOアレイは188.7TOPS/Wを実現し、MNISTデータセットの97.07%のTop-1精度を示した。
関連論文リスト
- BDC-Occ: Binarized Deep Convolution Unit For Binarized Occupancy Network [55.21288428359509]
既存の3D占有ネットワークは重要なハードウェアリソースを必要としており、エッジデバイスの配備を妨げている。
本稿では,バイナライズド・ディープ・コンボリューション(BDC)ユニットを提案し,バイナライズド・ディープ・コンボリューション・レイヤの数を増やしつつ性能を効果的に向上させる。
我々のBDC-Occモデルは既存の3D占有ネットワークをバイナライズするために提案したBDCユニットを適用して作成する。
論文 参考訳(メタデータ) (2024-05-27T10:44:05Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory
Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge
Applications [20.74979295607707]
CIMマクロは4x4ビットMAC演算を実行し、9ビット符号付き出力を出力できる。
細胞の無害放電枝を用いて、時間変調MACと9ビットADC読み出し操作を適用する。
論文 参考訳(メタデータ) (2023-07-12T06:20:19Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - NEON: Enabling Efficient Support for Nonlinear Operations in Resistive
RAM-based Neural Network Accelerators [12.045126404373868]
Resistive Random-Access Memory(RRAM)は、ニューラルネットワーク(NN)ワークロードの高速化に適している。
NEONは、RRAMにおけるNNワークロードのエンドツーエンド実行を可能にする、新しいコンパイラ最適化である。
論文 参考訳(メタデータ) (2022-11-10T17:57:35Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for
In-DRAM CNN Processing [0.5257115841810257]
ATRIAは、CNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器である。
ATRIAはCNNの推測精度がわずか3.5%低下し、フレーム/秒(FPS)が最大3.2倍、効率が最大10倍改善されている。
論文 参考訳(メタデータ) (2021-05-26T18:36:01Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。