論文の概要: Efficient Deep Learning Using Non-Volatile Memory Technology
- arxiv url: http://arxiv.org/abs/2206.13601v1
- Date: Mon, 27 Jun 2022 19:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 14:39:18.206247
- Title: Efficient Deep Learning Using Non-Volatile Memory Technology
- Title(参考訳): 不揮発性メモリ技術を用いた効率的なディープラーニング
- Authors: Ahmet Inci, Mehmet Meric Isgenc, Diana Marculescu
- Abstract要約: ディープラーニング(DL)アプリケーションのためのアーキテクチャにおいて、NVMベースのキャッシュを特徴付け、モデル化し、分析するための包括的なフレームワークであるDeepNVM++を紹介します。
アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のキャッシュと比較して最大3.8倍および4.7倍のエネルギー遅延生成物(EDP)と2.4倍および2.8倍の領域還元を提供する。
DeepNVM++ は STT-/SOT-MRAM 技術で実証されており、最後のレベルキャッシュのための NVM 技術のキャラクタリゼーション、モデリング、分析に使用することができる。
- 参考スコア(独自算出の注目度): 12.866655564742889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedded machine learning (ML) systems have now become the dominant platform
for deploying ML serving tasks and are projected to become of equal importance
for training ML models. With this comes the challenge of overall efficient
deployment, in particular low power and high throughput implementations, under
stringent memory constraints. In this context, non-volatile memory (NVM)
technologies such as STT-MRAM and SOT-MRAM have significant advantages compared
to conventional SRAM due to their non-volatility, higher cell density, and
scalability features. While prior work has investigated several architectural
implications of NVM for generic applications, in this work we present
DeepNVM++, a comprehensive framework to characterize, model, and analyze
NVM-based caches in GPU architectures for deep learning (DL) applications by
combining technology-specific circuit-level models and the actual memory
behavior of various DL workloads. DeepNVM++ relies on iso-capacity and iso-area
performance and energy models for last-level caches implemented using
conventional SRAM and emerging STT-MRAM and SOT-MRAM technologies. In the
iso-capacity case, STT-MRAM and SOT-MRAM provide up to 3.8x and 4.7x
energy-delay product (EDP) reduction and 2.4x and 2.8x area reduction compared
to conventional SRAM, respectively. Under iso-area assumptions, STT-MRAM and
SOT-MRAM provide up to 2.2x and 2.4x EDP reduction and accommodate 2.3x and
3.3x cache capacity when compared to SRAM, respectively. We also perform a
scalability analysis and show that STT-MRAM and SOT-MRAM achieve orders of
magnitude EDP reduction when compared to SRAM for large cache capacities.
DeepNVM++ is demonstrated on STT-/SOT-MRAM technologies and can be used for the
characterization, modeling, and analysis of any NVM technology for last-level
caches in GPUs for DL applications.
- Abstract(参考訳): ml(embedded machine learning)システムは、mlサービスタスクをデプロイするための主要なプラットフォームとなり、mlモデルのトレーニングに等しく重要であると予測されている。
これにより、全体的な効率的なデプロイメント、特に低消費電力と高スループットの実装が、厳格なメモリ制約の下で課題となる。
この文脈では、STT-MRAMやSOT-MRAMのような非揮発性メモリ(NVM)技術は、その非揮発性、セル密度、拡張性などにより従来のSRAMと比較して大きな利点がある。
従来,汎用アプリケーションにおけるNVMのアーキテクチャ的意味について検討してきたが,本研究では,テクノロジ固有の回路レベルモデルとさまざまなDLワークロードの実際のメモリ挙動を組み合わせることで,ディープラーニング(DL)アプリケーション用のGPUアーキテクチャにおけるNVMベースのキャッシュを特徴付け,モデル化し,解析する包括的なフレームワークであるDeepNVM++を紹介する。
DeepNVM++は、従来のSRAMと新興STT-MRAMおよびSOT-MRAM技術を用いて実装された最後のレベルキャッシュに対して、アイソ容量とアイソ領域性能とエネルギーモデルに依存している。
アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のSRAMと比較して最大3.8xと4.7xのエネルギー遅延生成物(EDP)と2.4xと2.8xの面積減少を提供する。
STT-MRAMとSOT-MRAMはSRAMと比較して最大2.2xと2.4xのEDPを削減し、2.3xと3.3xのキャッシュ容量を持つ。
また,STT-MRAMとSOT-MRAMは大規模キャッシュ容量のSRAMと比較して,桁違いのEDP削減を実現していることを示す。
DeepNVM++は、STT-/SOT-MRAM技術で実証されており、DLアプリケーション用のGPUにおける最後のレベルキャッシュのためのNVM技術のキャラクタリゼーション、モデリング、分析に使用できる。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data
Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。
DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。
最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文 参考訳(メタデータ) (2023-10-31T12:49:54Z) - Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators [9.877596714655096]
深層ニューラルネットワーク(DNN)のトレーニングは非常にメモリ集約的なプロセスである。
Spin-Transfer-Torque MRAM (STT-MRAM) は、加速器の訓練に望ましいいくつかの特性を提供する。
MRAMはシステムレベルのエネルギーを最大15-22倍改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T20:36:48Z) - TL-nvSRAM-CIM: Ultra-High-Density Three-Level ReRAM-Assisted
Computing-in-nvSRAM with DC-Power Free Restore and Ternary MAC Operations [8.669532093397065]
本研究では,大規模NNモデルのための超高密度3レベルReRAM支援計算方式を提案する。
提案したTL-nvSRAM-CIMは、ステートアートよりも7.8倍高いストレージ密度を実現している。
論文 参考訳(メタデータ) (2023-07-06T01:46:06Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Memory-Oriented Design-Space Exploration of Edge-AI Hardware for XR
Applications [5.529817156718514]
低消費電力エッジAI機能は、Metaverseのビジョンをサポートするためにデバイス上の拡張現実(XR)アプリケーションに不可欠である。
本研究は,ハードウェア設計空間探索のためのハンド検出とアイセグメンテーションの2つの代表的XRワークロードについて検討する。
どちらのアプリケーションでも、ディープニューラルネットワークをトレーニングし、量子化とハードウェア固有のボトルネックの影響を分析します。
最先端の非揮発性メモリ技術(STT/SOT/VGSOT MRAM)をXR-AI推論パイプラインに統合した影響を評価した。
論文 参考訳(メタデータ) (2022-06-08T11:18:02Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - DeepNVM++: Cross-Layer Modeling and Optimization Framework of
Non-Volatile Memories for Deep Learning [11.228806840123084]
スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、従来の技術に比べて大きな利点がある。
本研究では、ディープラーニング(DL)アプリケーションにおけるNVMベースのキャッシュを特徴づけ、モデル化し、分析するフレームワークであるDeepNVM++を紹介します。
論文 参考訳(メタデータ) (2020-12-08T16:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。