論文の概要: Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators
- arxiv url: http://arxiv.org/abs/2308.02024v1
- Date: Thu, 3 Aug 2023 20:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:43:51.940961
- Title: Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators
- Title(参考訳): ML加速器のスクラッチパッドとしてのSTT-MRAMの評価
- Authors: Sourjya Roy, Cheng Wang, and Anand Raghunathan
- Abstract要約: 深層ニューラルネットワーク(DNN)のトレーニングは非常にメモリ集約的なプロセスである。
Spin-Transfer-Torque MRAM (STT-MRAM) は、加速器の訓練に望ましいいくつかの特性を提供する。
MRAMはシステムレベルのエネルギーを最大15-22倍改善することを示す。
- 参考スコア(独自算出の注目度): 9.877596714655096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in artificial intelligence and machine learning over the past decade
has been driven by the ability to train larger deep neural networks (DNNs),
leading to a compute demand that far exceeds the growth in hardware performance
afforded by Moore's law. Training DNNs is an extremely memory-intensive
process, requiring not just the model weights but also activations and
gradients for an entire minibatch to be stored. The need to provide
high-density and low-leakage on-chip memory motivates the exploration of
emerging non-volatile memory for training accelerators. Spin-Transfer-Torque
MRAM (STT-MRAM) offers several desirable properties for training accelerators,
including 3-4x higher density than SRAM, significantly reduced leakage power,
high endurance and reasonable access time. On the one hand, MRAM write
operations require high write energy and latency due to the need to ensure
reliable switching.
In this study, we perform a comprehensive device-to-system evaluation and
co-optimization of STT-MRAM for efficient ML training accelerator design. We
devised a cross-layer simulation framework to evaluate the effectiveness of
STT-MRAM as a scratchpad replacing SRAM in a systolic-array-based DNN
accelerator. To address the inefficiency of writes in STT-MRAM, we propose to
reduce write voltage and duration. To evaluate the ensuing accuracy-efficiency
trade-off, we conduct a thorough analysis of the error tolerance of input
activations, weights, and errors during the training. We propose heterogeneous
memory configurations that enable training convergence with good accuracy. We
show that MRAM provide up to 15-22x improvement in system level energy across a
suite of DNN benchmarks under iso-capacity and iso-area scenarios. Further
optimizing STT-MRAM write operations can provide over 2x improvement in write
energy for minimal degradation in application-level training accuracy.
- Abstract(参考訳): 過去10年間の人工知能と機械学習の進歩は、より大きなディープニューラルネットワーク(DNN)をトレーニングする能力によって推進されている。
トレーニングdnnは非常にメモリ集約的なプロセスであり、モデル重みだけでなく、ミニバッチ全体を保存するためのアクティベーションや勾配も必要です。
高密度で低リープのオンチップメモリを提供する必要性は、トレーニングアクセラレータのための新しい不揮発性メモリの探求を動機付ける。
Spin-Transfer-Torque MRAM (STT-MRAM) は、SRAMよりも3,4倍高い密度、リーク電力の大幅な低減、耐久性の向上、アクセス時間の向上など、トレーニングアクセラレータに望ましいいくつかの特性を提供する。
一方、mram書き込み操作は、信頼性の高いスイッチングが必要であるため、高い書き込みエネルギーとレイテンシを必要とする。
本研究では,効率的なMLトレーニングアクセラレータ設計のための総合的なデバイス間評価とSTT-MRAMの協調最適化を行う。
我々は,SRAMに代わるスクラッチパッドとしてSTT-MRAMの有効性を評価するための層間シミュレーションフレームワークを開発した。
STT-MRAMにおける書き込みの非効率性に対処するため,書き込み電圧と持続時間を削減することを提案する。
入力のアクティベーション,重み,エラーのエラー許容度を,トレーニング中に徹底的に解析し,精度・効率のトレードオフを評価する。
高精度なトレーニング収束を可能にする異種メモリ構成を提案する。
MRAMは,同容量および異領域シナリオ下でのDNNベンチマークにおいて,システムレベルのエネルギーを最大15~22倍改善することを示す。
stt-mram書き込み操作の最適化により、書き込みエネルギーが2倍以上向上し、アプリケーションレベルのトレーニング精度が最小限になる。
関連論文リスト
- Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning [8.339901980070616]
リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。
過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:57:01Z) - Efficient Deep Learning Using Non-Volatile Memory Technology [12.866655564742889]
ディープラーニング(DL)アプリケーションのためのアーキテクチャにおいて、NVMベースのキャッシュを特徴付け、モデル化し、分析するための包括的なフレームワークであるDeepNVM++を紹介します。
アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のキャッシュと比較して最大3.8倍および4.7倍のエネルギー遅延生成物(EDP)と2.4倍および2.8倍の領域還元を提供する。
DeepNVM++ は STT-/SOT-MRAM 技術で実証されており、最後のレベルキャッシュのための NVM 技術のキャラクタリゼーション、モデリング、分析に使用することができる。
論文 参考訳(メタデータ) (2022-06-27T19:27:57Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - DeepNVM++: Cross-Layer Modeling and Optimization Framework of
Non-Volatile Memories for Deep Learning [11.228806840123084]
スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、従来の技術に比べて大きな利点がある。
本研究では、ディープラーニング(DL)アプリケーションにおけるNVMベースのキャッシュを特徴づけ、モデル化し、分析するフレームワークであるDeepNVM++を紹介します。
論文 参考訳(メタデータ) (2020-12-08T16:53:25Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - A New MRAM-based Process In-Memory Accelerator for Efficient Neural
Network Training with Floating Point Precision [28.458719513745812]
本研究では、浮動小数点精度をサポートしたスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)を用いたデジタルPIM加速器を提案する。
実験の結果,提案したSOT-MRAM PIMベースのDNNトレーニングアクセラレータは3.3$times$,1.8$times$,2.5$times$をエネルギー,遅延,面積の面で改善できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T04:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。