論文の概要: Supporting Massive DLRM Inference Through Software Defined Memory
- arxiv url: http://arxiv.org/abs/2110.11489v1
- Date: Thu, 21 Oct 2021 21:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 15:21:45.451229
- Title: Supporting Massive DLRM Inference Through Software Defined Memory
- Title(参考訳): ソフトウェア定義メモリによる大規模DLRM推論のサポート
- Authors: Ehsan K. Ardestani, Changkyu Kim, Seung Jae Lee, Luoshang Pan, Valmiki
Rampersad, Jens Axboe, Banit Agrawal, Fuxun Yu, Ansha Yu, Trung Le, Hector
Yuen, Shishir Juluri, Akshat Nanda, Manoj Wodekar, Dheevatsa Mudigere,
Krishnakumar Nair, Maxim Naumov, Chris Peterson, Mikhail Smelyanskiy, Vijay
Rao
- Abstract要約: Deep Learning Recommendation Models (DLRM) は広く普及しており、データセンターのフットプリントが相当あり、年間1.5倍以上成長している。
モデルサイズがテラバイトに近づき、推論にSCM(Storage ClassMemory)を活用することで、消費電力とコストを削減できる。
- 参考スコア(独自算出の注目度): 18.52744448265802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning Recommendation Models (DLRM) are widespread, account for a
considerable data center footprint, and grow by more than 1.5x per year. With
model size soon to be in terabytes range, leveraging Storage ClassMemory (SCM)
for inference enables lower power consumption and cost. This paper evaluates
the major challenges in extending the memory hierarchy to SCM for DLRM, and
presents different techniques to improve performance through a Software Defined
Memory. We show how underlying technologies such as Nand Flash and3DXP
differentiate, and relate to real world scenarios, enabling from 5% to 29%
power savings.
- Abstract(参考訳): Deep Learning Recommendation Models (DLRM) は広く普及しており、データセンターのフットプリントが相当あり、年間1.5倍以上成長している。
モデルサイズがテラバイトに近づき、推論にSCM(Storage ClassMemory)を活用することで、消費電力とコストを削減できる。
本稿では,DLRMにおけるメモリ階層をSCMに拡張する上での大きな課題について検討し,ソフトウェア定義メモリによる性能向上手法を提案する。
Nand Flashや3DXPのような基盤技術が現実世界のシナリオとどのように異なるかを示し、5%から29%の省電力を実現している。
関連論文リスト
- HEAM : Hashed Embedding Acceleration using Processing-In-Memory [17.66751227197112]
今日のデータセンターでは、パーソナライズされたレコメンデーションシステムは、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。
これまでのアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処するために3DスタックDRAMを導入していた。
本稿では、3DスタックDRAMとDIMMを統合してレコメンデーションシステムを高速化するヘテロジニアスメモリアーキテクチャであるHEAMを紹介する。
論文 参考訳(メタデータ) (2024-02-06T14:26:22Z) - LLM in a flash: Efficient Large Language Model Inference with Limited
Memory [20.515855044180295]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。
本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。
本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文 参考訳(メタデータ) (2023-12-12T18:57:08Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Deep Reinforcement Learning Based Multidimensional Resource Management
for Energy Harvesting Cognitive NOMA Communications [64.1076645382049]
エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせはエネルギー効率を向上させるための有望な解決策である。
本稿では,決定論的CR-NOMA IoTシステムにおけるスペクトル,エネルギー,時間資源管理について検討する。
論文 参考訳(メタデータ) (2021-09-17T08:55:48Z) - Power Modeling for Effective Datacenter Planning and Compute Management [53.41102502425513]
我々は,すべてのハードウェア構成とワークロードに適用可能な,正確でシンプルで解釈可能な統計パワーモデルの設計と検証の2つのクラスについて論じる。
提案された統計的モデリング手法は, 単純かつスケーラブルでありながら, 4つの特徴のみを用いて, 95% 以上の多様な配電ユニット (2000 以上) に対して, 5% 未満の絶対パーセンテージエラー (MAPE) で電力を予測できることを実証した。
論文 参考訳(メタデータ) (2021-03-22T21:22:51Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。