Fugu-MT 論文翻訳(概要): Supporting Massive DLRM Inference Through Software Defined Memory

論文の概要: Supporting Massive DLRM Inference Through Software Defined Memory

arxiv url: http://arxiv.org/abs/2110.11489v1
Date: Thu, 21 Oct 2021 21:29:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 15:21:45.451229
Title: Supporting Massive DLRM Inference Through Software Defined Memory
Title（参考訳）: ソフトウェア定義メモリによる大規模DLRM推論のサポート
Authors: Ehsan K. Ardestani, Changkyu Kim, Seung Jae Lee, Luoshang Pan, Valmiki Rampersad, Jens Axboe, Banit Agrawal, Fuxun Yu, Ansha Yu, Trung Le, Hector Yuen, Shishir Juluri, Akshat Nanda, Manoj Wodekar, Dheevatsa Mudigere, Krishnakumar Nair, Maxim Naumov, Chris Peterson, Mikhail Smelyanskiy, Vijay Rao
Abstract要約: Deep Learning Recommendation Models (DLRM) は広く普及しており、データセンターのフットプリントが相当あり、年間1.5倍以上成長している。モデルサイズがテラバイトに近づき、推論にSCM(Storage ClassMemory)を活用することで、消費電力とコストを削減できる。
参考スコア（独自算出の注目度）: 18.52744448265802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Learning Recommendation Models (DLRM) are widespread, account for a considerable data center footprint, and grow by more than 1.5x per year. With model size soon to be in terabytes range, leveraging Storage ClassMemory (SCM) for inference enables lower power consumption and cost. This paper evaluates the major challenges in extending the memory hierarchy to SCM for DLRM, and presents different techniques to improve performance through a Software Defined Memory. We show how underlying technologies such as Nand Flash and3DXP differentiate, and relate to real world scenarios, enabling from 5% to 29% power savings.
Abstract（参考訳）: Deep Learning Recommendation Models (DLRM) は広く普及しており、データセンターのフットプリントが相当あり、年間1.5倍以上成長している。モデルサイズがテラバイトに近づき、推論にSCM(Storage ClassMemory)を活用することで、消費電力とコストを削減できる。本稿では,DLRMにおけるメモリ階層をSCMに拡張する上での大きな課題について検討し,ソフトウェア定義メモリによる性能向上手法を提案する。 Nand Flashや3DXPのような基盤技術が現実世界のシナリオとどのように異なるかを示し、5%から29%の省電力を実現している。

関連論文リスト

SCRec: A Scalable Computational Storage System with Statistical Sharding and Tensor-train Decomposition for Recommendation Models [17.602518628415776]
Deep Learning Recommendation Models (DLRMs)は、ソーシャルネットワークやビデオストリーミングといったWebアプリケーション間でパーソナライズされたコンテンツを配信する上で、重要な役割を果たす。性能の改善により、DLRMsのパラメータサイズはテラバイト(TB)に拡大し、メモリ帯域幅の要求はTB/sを超えるようになった。 TBスケールの産業用DLRMを扱えるスケーラブルな計算ストレージレコメンデーションシステムであるSCRecを提案する。
論文参考訳（メタデータ） (2025-04-01T08:12:45Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Managed-Retention Memory: A New Class of Memory for the AI Era [1.8494892349829377]
Managed-Retention Memory(MRM)は、AI推論ワークロードのキーデータ構造を格納するように最適化されている。 MRMはさまざまなトレードオフを行い、ワークロードのIOパターンを理解することによって、長期的なデータ保持と書き込みパフォーマンスを予見し、これらのワークロードの重要なメトリクスのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-01-16T15:25:44Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文参考訳（メタデータ） (2024-08-20T09:42:17Z)
UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。 UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文参考訳（メタデータ） (2024-06-20T02:20:21Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
LLM in a flash: Efficient Large Language Model Inference with Limited Memory [19.668719251238176]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文参考訳（メタデータ） (2023-12-12T18:57:08Z)
MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文参考訳（メタデータ） (2023-04-19T06:06:06Z)
The trade-offs of model size in large recommendation models : A 10000 $\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文参考訳（メタデータ） (2022-07-21T19:50:34Z)
Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文参考訳（メタデータ） (2021-02-24T19:55:49Z)
Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。 i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文参考訳（メタデータ） (2021-02-15T18:19:07Z)
SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。 SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文参考訳（メタデータ） (2021-01-04T18:54:07Z)
Optimizing Deep Learning Recommender Systems' Training On CPU Cluster Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。 HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文参考訳（メタデータ） (2020-05-10T14:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。