論文の概要: DeepNVM++: Cross-Layer Modeling and Optimization Framework of
Non-Volatile Memories for Deep Learning
- arxiv url: http://arxiv.org/abs/2012.04559v1
- Date: Tue, 8 Dec 2020 16:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:51:09.110158
- Title: DeepNVM++: Cross-Layer Modeling and Optimization Framework of
Non-Volatile Memories for Deep Learning
- Title(参考訳): DeepNVM++: ディープラーニングのための非揮発性メモリの層間モデリングと最適化フレームワーク
- Authors: Ahmet Inci, Mehmet Meric Isgenc, Diana Marculescu
- Abstract要約: スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、従来の技術に比べて大きな利点がある。
本研究では、ディープラーニング(DL)アプリケーションにおけるNVMベースのキャッシュを特徴づけ、モデル化し、分析するフレームワークであるDeepNVM++を紹介します。
- 参考スコア(独自算出の注目度): 11.228806840123084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-volatile memory (NVM) technologies such as spin-transfer torque magnetic
random access memory (STT-MRAM) and spin-orbit torque magnetic random access
memory (SOT-MRAM) have significant advantages compared to conventional SRAM due
to their non-volatility, higher cell density, and scalability features. While
previous work has investigated several architectural implications of NVM for
generic applications, in this work we present DeepNVM++, a framework to
characterize, model, and analyze NVM-based caches in GPU architectures for deep
learning (DL) applications by combining technology-specific circuit-level
models and the actual memory behavior of various DL workloads. We present both
iso-capacity and iso-area performance and energy analysis for systems whose
last-level caches rely on conventional SRAM and emerging STT-MRAM and SOT-MRAM
technologies. In the iso-capacity case, STT-MRAM and SOT-MRAM provide up to
3.8x and 4.7x energy-delay product (EDP) reduction and 2.4x and 2.8x area
reduction compared to conventional SRAM, respectively. Under iso-area
assumptions, STT-MRAM and SOT-MRAM provide up to 2x and 2.3x EDP reduction and
accommodate 2.3x and 3.3x cache capacity when compared to SRAM, respectively.
We also perform a scalability analysis and show that STT-MRAM and SOT-MRAM
achieve orders of magnitude EDP reduction when compared to SRAM for large cache
capacities. Our comprehensive cross-layer framework is demonstrated on
STT-/SOT-MRAM technologies and can be used for the characterization, modeling,
and analysis of any NVM technology for last-level caches in GPUs for DL
applications.
- Abstract(参考訳): スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、その非揮発性、セル密度、拡張性などにより従来のSRAMと比較して大きな利点がある。
これまでの研究は、汎用アプリケーションにおけるNVMのアーキテクチャ的意味について検討してきたが、この研究では、テクノロジ固有の回路レベルモデルと様々なDLワークロードの実際のメモリ挙動を組み合わせることで、ディープラーニング(DL)アプリケーションのためのGPUアーキテクチャにおけるNVMベースのキャッシュを特徴づけ、モデル化、分析するフレームワークであるDeepNVM++を紹介した。
我々は,従来のSRAMと新興STT-MRAMおよびSOT-MRAM技術に依存するシステムに対して,アイソキャパシティとアイソア性能とエネルギー分析の両方を提示する。
アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のSRAMと比較して最大3.8xと4.7xのエネルギー遅延生成物(EDP)と2.4xと2.8xの面積減少を提供する。
STT-MRAMとSOT-MRAMは2倍と2.3倍のEDP削減を提供し、それぞれSRAMと比較して2.3倍と3.3倍のキャッシュ容量を持つ。
また,STT-MRAMとSOT-MRAMは大規模キャッシュ容量のSRAMと比較して,桁違いのEDP削減を実現していることを示す。
我々は,STT/SOT-MRAM技術上での包括的クロスレイヤフレームワークを実証し,DLアプリケーション用GPUにおける最終レベルキャッシュのためのNVM技術のキャラクタリゼーション,モデリング,解析に利用することができる。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data
Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。
DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。
最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文 参考訳(メタデータ) (2023-10-31T12:49:54Z) - Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators [9.877596714655096]
深層ニューラルネットワーク(DNN)のトレーニングは非常にメモリ集約的なプロセスである。
Spin-Transfer-Torque MRAM (STT-MRAM) は、加速器の訓練に望ましいいくつかの特性を提供する。
MRAMはシステムレベルのエネルギーを最大15-22倍改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T20:36:48Z) - TL-nvSRAM-CIM: Ultra-High-Density Three-Level ReRAM-Assisted
Computing-in-nvSRAM with DC-Power Free Restore and Ternary MAC Operations [8.669532093397065]
本研究では,大規模NNモデルのための超高密度3レベルReRAM支援計算方式を提案する。
提案したTL-nvSRAM-CIMは、ステートアートよりも7.8倍高いストレージ密度を実現している。
論文 参考訳(メタデータ) (2023-07-06T01:46:06Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Efficient Deep Learning Using Non-Volatile Memory Technology [12.866655564742889]
ディープラーニング(DL)アプリケーションのためのアーキテクチャにおいて、NVMベースのキャッシュを特徴付け、モデル化し、分析するための包括的なフレームワークであるDeepNVM++を紹介します。
アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のキャッシュと比較して最大3.8倍および4.7倍のエネルギー遅延生成物(EDP)と2.4倍および2.8倍の領域還元を提供する。
DeepNVM++ は STT-/SOT-MRAM 技術で実証されており、最後のレベルキャッシュのための NVM 技術のキャラクタリゼーション、モデリング、分析に使用することができる。
論文 参考訳(メタデータ) (2022-06-27T19:27:57Z) - Memory-Oriented Design-Space Exploration of Edge-AI Hardware for XR
Applications [5.529817156718514]
低消費電力エッジAI機能は、Metaverseのビジョンをサポートするためにデバイス上の拡張現実(XR)アプリケーションに不可欠である。
本研究は,ハードウェア設計空間探索のためのハンド検出とアイセグメンテーションの2つの代表的XRワークロードについて検討する。
どちらのアプリケーションでも、ディープニューラルネットワークをトレーニングし、量子化とハードウェア固有のボトルネックの影響を分析します。
最先端の非揮発性メモリ技術(STT/SOT/VGSOT MRAM)をXR-AI推論パイプラインに統合した影響を評価した。
論文 参考訳(メタデータ) (2022-06-08T11:18:02Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。