論文の概要: IMAC: In-memory multi-bit Multiplication andACcumulation in 6T SRAM
Array
- arxiv url: http://arxiv.org/abs/2003.12558v1
- Date: Fri, 27 Mar 2020 17:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:37:24.292214
- Title: IMAC: In-memory multi-bit Multiplication andACcumulation in 6T SRAM
Array
- Title(参考訳): IMAC:6T SRAMアレイにおけるインメモリマルチビット乗算と蓄積
- Authors: Mustafa Ali, Akhilesh Jaiswal, Sangamesh Kodge, Amogh Agrawal,
Indranil Chakraborty, and Kaushik Roy
- Abstract要約: インメモリコンピューティングは、メモリアレイに計算のいくつかの側面を埋め込むことを目的としている。
6Tアレイ内で並列ドット生成を行うことができる新しいインメモリ乗算法を提案する。
提案システムはエネルギー消費の6.24倍、遅延の9.42倍である。
- 参考スコア(独自算出の注目度): 5.29958909018578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: `In-memory computing' is being widely explored as a novel computing paradigm
to mitigate the well known memory bottleneck. This emerging paradigm aims at
embedding some aspects of computations inside the memory array, thereby
avoiding frequent and expensive movement of data between the compute unit and
the storage memory. In-memory computing with respect to Silicon memories has
been widely explored on various memory bit-cells. Embedding computation inside
the 6 transistor (6T) SRAM array is of special interest since it is the most
widely used on-chip memory. In this paper, we present a novel in-memory
multiplication followed by accumulation operation capable of performing
parallel dot products within 6T SRAM without any changes to the standard
bitcell. We, further, study the effect of circuit non-idealities and process
variations on the accuracy of the LeNet-5 and VGG neural network architectures
against the MNIST and CIFAR-10 datasets, respectively. The proposed in-memory
dot-product mechanism achieves 88.8% and 99% accuracy for the CIFAR-10 and
MNIST, respectively. Compared to the standard von Neumann system, the proposed
system is 6.24x better in energy consumption and 9.42x better in delay.
- Abstract(参考訳): インメモリコンピューティング」は、よく知られたメモリボトルネックを軽減する新しいコンピューティングパラダイムとして広く研究されている。
この新たなパラダイムは、メモリアレイに計算のいくつかの側面を埋め込むことを目標とし、コンピュータユニットとストレージメモリの間の頻繁で高価なデータの移動を避ける。
シリコンメモリに関するインメモリコンピューティングは、様々なメモリビットセルで広く研究されている。
6トランジスタ (6T) のSRAMアレイ内への埋め込み計算は、最も広く使われているオンチップメモリであるため、特に興味深い。
本稿では,6T SRAM内での並列ドット生成を,標準ビットセルの変更を伴わずに行うことができる新しいインメモリ乗算法を提案する。
さらに、MNISTとCIFAR-10データセットに対するLeNet-5とVGGニューラルネットワークアーキテクチャの精度に対する回路非理想性とプロセス変動の影響について検討した。
提案されたインメモリドット生成機構は、それぞれCIFAR-10とMNISTの88.8%と99%の精度を達成する。
標準のフォン・ノイマンシステムと比較すると、提案システムはエネルギー消費の6.24倍、遅延の9.42倍である。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - IMBUE: In-Memory Boolean-to-CUrrent Inference ArchitecturE for Tsetlin
Machines [5.6634493664726495]
機械学習(ML)アプリケーションのためのインメモリコンピューティングは、並列性と局所性を活用するために計算を整理することで、フォン・ノイマンのボトルネックを修復する。
Resistive RAM(ReRAM)のような不揮発性メモリデバイスは、MLアプリケーションに有望なパフォーマンスを示す、統合的なスイッチングとストレージ機能を提供する。
本稿では,ReRAMトランジスタセルを用いたメモリ内Boolean-to-Current Inference Architecture (IMBUE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T10:55:01Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。