論文の概要: RecShard: Statistical Feature-Based Memory Optimization for
Industry-Scale Neural Recommendation
- arxiv url: http://arxiv.org/abs/2201.10095v1
- Date: Tue, 25 Jan 2022 04:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 16:54:20.115005
- Title: RecShard: Statistical Feature-Based Memory Optimization for
Industry-Scale Neural Recommendation
- Title(参考訳): RecShard: 産業規模のニューラルレコメンデーションのための統計的特徴ベースメモリ最適化
- Authors: Geet Sethi, Bilge Acun, Niket Agarwal, Christos Kozyrakis, Caroline
Trippel, Carole-Jean Wu
- Abstract要約: RecShardは、ディープラーニングレコメンデーションモデル(DLRM)のための微細な埋め込みテーブル(EMB)分割と配置技術である
RecShardは容量制限のDLRMに対して平均6倍以上のMBトレーニングスループットを実現している。
- 参考スコア(独自算出の注目度): 3.89008964929505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RecShard, a fine-grained embedding table (EMB) partitioning and
placement technique for deep learning recommendation models (DLRMs). RecShard
is designed based on two key observations. First, not all EMBs are equal, nor
all rows within an EMB are equal in terms of access patterns. EMBs exhibit
distinct memory characteristics, providing performance optimization
opportunities for intelligent EMB partitioning and placement across a tiered
memory hierarchy. Second, in modern DLRMs, EMBs function as hash tables. As a
result, EMBs display interesting phenomena, such as the birthday paradox,
leaving EMBs severely under-utilized. RecShard determines an optimal EMB
sharding strategy for a set of EMBs based on training data distributions and
model characteristics, along with the bandwidth characteristics of the
underlying tiered memory hierarchy. In doing so, RecShard achieves over 6 times
higher EMB training throughput on average for capacity constrained DLRMs. The
throughput increase comes from improved EMB load balance by over 12 times and
from the reduced access to the slower memory by over 87 times.
- Abstract(参考訳): 本稿では,ディープラーニングレコメンデーションモデル(DLRM)のための細粒度埋め込みテーブル(EMB)分割と配置技術であるRecShardを提案する。
RecShardは2つの重要な観測に基づいて設計されている。
第一に、すべての EMB が等しいわけではないし、アクセスパターンの点で EMB 内のすべての行が等しいわけでもない。
EMBは異なるメモリ特性を示し、インテリジェントなEMBパーティショニングと、階層化されたメモリ階層に配置するパフォーマンス最適化の機会を提供する。
第二に、現代のDLRMでは、EMBはハッシュテーブルとして機能する。
その結果、ESBは誕生日のパラドックスのような興味深い現象を示し、ESBはひどく活用されていない。
RecShardは、トレーニングデータ分布とモデル特性と、基礎となる結合メモリ階層の帯域特性に基づいて、一連のEMBに対する最適なEMBシャーディング戦略を決定する。
そうすることで、RecShardは容量制限DLRMに対して平均6倍以上のMBトレーニングスループットを達成する。
スループットの向上は、EMBロードバランシングの改善を12回以上、遅いメモリへのアクセスを87回以上削減することによるものだ。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - Mem-Rec: Memory Efficient Recommendation System using Alternative
Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。
MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文 参考訳(メタデータ) (2023-05-12T02:36:07Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。