論文の概要: MAC-DO: An Efficient Output-Stationary GEMM Accelerator for CNNs Using
DRAM Technology
- arxiv url: http://arxiv.org/abs/2207.07862v3
- Date: Wed, 7 Feb 2024 15:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 21:13:25.209316
- Title: MAC-DO: An Efficient Output-Stationary GEMM Accelerator for CNNs Using
DRAM Technology
- Title(参考訳): MAC-DO:DRAM技術を用いたCNNのための効率的な出力定常GEMM加速器
- Authors: Minki Jeong, Wanyeong Jung
- Abstract要約: 本稿では,DRAMを用いた高速かつ低消費電力なインサイトアクセラレータMAC-DOを提案する。
マルチビット乗算(MAC)操作を1サイクルでサポートする。
MAC-DOアレイは、出力定常マッピングに基づいて行列乗算を効率的に加速することができ、ディープニューラルネットワーク(DNN)で実行される計算の大部分をサポートする。
- 参考スコア(独自算出の注目度): 2.918940961856197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DRAM-based in-situ accelerators have shown their potential in addressing the
memory wall challenge of the traditional von Neumann architecture. Such
accelerators exploit charge sharing or logic circuits for simple logic
operations at the DRAM subarray level. However, their throughput is limited due
to low array utilization, as only a few row cells in a DRAM array participate
in operations while most rows remain deactivated. Moreover, they require many
cycles for more complex operations such as a multi-bit multiply-accumulate
(MAC) operation, resulting in significant data access and movement and
potentially worsening power efficiency. To overcome these limitations, this
paper presents MAC-DO, an efficient and low-power DRAM-based in-situ
accelerator. Compared to previous DRAM-based in-situ accelerators, a MAC-DO
cell, consisting of two 1T1C DRAM cells (two transistors and two capacitors),
innately supports a multi-bit MAC operation within a single cycle, ensuring
good linearity and compatibility with existing 1T1C DRAM cells and array
structures. This achievement is facilitated by a novel analog computation
method utilizing charge steering. Additionally, MAC-DO enables concurrent
individual MAC operations in each MAC-DO cell without idle cells, significantly
improving throughput and energy efficiency. As a result, a MAC-DO array
efficiently can accelerate matrix multiplications based on output stationary
mapping, supporting the majority of computations performed in deep neural
networks (DNNs). Furthermore, a MAC-DO array efficiently reuses three types of
data (input, weight and output), minimizing data movement.
- Abstract(参考訳): DRAMベースのIn-situアクセラレータは、従来のフォン・ノイマンアーキテクチャのメモリウォール問題に対処する可能性を示している。
このようなアクセラレータは、DRAMサブアレイレベルでの単純な論理演算に電荷共有または論理回路を利用する。
しかし、DRAMアレイ内の数個の行セルだけが操作に参加し、ほとんどの行は非活性化されているため、そのスループットは低い配列利用のために制限されている。
さらに、マルチビット乗算 (MAC) 演算のような複雑な操作には多くのサイクルを必要とするため、データアクセスと移動が大きくなり、電力効率が悪化する可能性がある。
これらの制約を克服するために,DRAMを用いた高速かつ低消費電力なインサイトアクセラレータMAC-DOを提案する。
以前のDRAMベースのin-situアクセラレータと比較すると、MAC-DOセルは2つの1T1C DRAMセル(2つのトランジスタと2つのキャパシタ)で構成され、本質的に1サイクルでマルチビットMAC操作をサポートし、線形性と既存の1T1C DRAMセルと配列構造との互換性を確保する。
この達成は、電荷ステアリングを利用した新しいアナログ計算法によって促進される。
さらにMAC-DOはアイドルセルを使わずに各MAC-DOセルでのMAC操作を同時に行うことができ、スループットとエネルギー効率を大幅に向上させる。
その結果、MAC-DOアレイは出力定常写像に基づいて行列乗算を効率的に加速することができ、ディープニューラルネットワーク(DNN)で実行される計算の大部分をサポートする。
さらに、MAC-DOアレイは、3種類のデータ(入力、重み、出力)を効率的に再利用し、データ移動を最小限にする。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory
Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge
Applications [20.74979295607707]
CIMマクロは4x4ビットMAC演算を実行し、9ビット符号付き出力を出力できる。
細胞の無害放電枝を用いて、時間変調MACと9ビットADC読み出し操作を適用する。
論文 参考訳(メタデータ) (2023-07-12T06:20:19Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - NEON: Enabling Efficient Support for Nonlinear Operations in Resistive
RAM-based Neural Network Accelerators [12.045126404373868]
Resistive Random-Access Memory(RRAM)は、ニューラルネットワーク(NN)ワークロードの高速化に適している。
NEONは、RRAMにおけるNNワークロードのエンドツーエンド実行を可能にする、新しいコンパイラ最適化である。
論文 参考訳(メタデータ) (2022-11-10T17:57:35Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for
In-DRAM CNN Processing [0.5257115841810257]
ATRIAは、CNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器である。
ATRIAはCNNの推測精度がわずか3.5%低下し、フレーム/秒(FPS)が最大3.2倍、効率が最大10倍改善されている。
論文 参考訳(メタデータ) (2021-05-26T18:36:01Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。