論文の概要: RecShard: Statistical Feature-Based Memory Optimization for
Industry-Scale Neural Recommendation
- arxiv url: http://arxiv.org/abs/2201.10095v1
- Date: Tue, 25 Jan 2022 04:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 16:54:20.115005
- Title: RecShard: Statistical Feature-Based Memory Optimization for
Industry-Scale Neural Recommendation
- Title(参考訳): RecShard: 産業規模のニューラルレコメンデーションのための統計的特徴ベースメモリ最適化
- Authors: Geet Sethi, Bilge Acun, Niket Agarwal, Christos Kozyrakis, Caroline
Trippel, Carole-Jean Wu
- Abstract要約: RecShardは、ディープラーニングレコメンデーションモデル(DLRM)のための微細な埋め込みテーブル(EMB)分割と配置技術である
RecShardは容量制限のDLRMに対して平均6倍以上のMBトレーニングスループットを実現している。
- 参考スコア(独自算出の注目度): 3.89008964929505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RecShard, a fine-grained embedding table (EMB) partitioning and
placement technique for deep learning recommendation models (DLRMs). RecShard
is designed based on two key observations. First, not all EMBs are equal, nor
all rows within an EMB are equal in terms of access patterns. EMBs exhibit
distinct memory characteristics, providing performance optimization
opportunities for intelligent EMB partitioning and placement across a tiered
memory hierarchy. Second, in modern DLRMs, EMBs function as hash tables. As a
result, EMBs display interesting phenomena, such as the birthday paradox,
leaving EMBs severely under-utilized. RecShard determines an optimal EMB
sharding strategy for a set of EMBs based on training data distributions and
model characteristics, along with the bandwidth characteristics of the
underlying tiered memory hierarchy. In doing so, RecShard achieves over 6 times
higher EMB training throughput on average for capacity constrained DLRMs. The
throughput increase comes from improved EMB load balance by over 12 times and
from the reduced access to the slower memory by over 87 times.
- Abstract(参考訳): 本稿では,ディープラーニングレコメンデーションモデル(DLRM)のための細粒度埋め込みテーブル(EMB)分割と配置技術であるRecShardを提案する。
RecShardは2つの重要な観測に基づいて設計されている。
第一に、すべての EMB が等しいわけではないし、アクセスパターンの点で EMB 内のすべての行が等しいわけでもない。
EMBは異なるメモリ特性を示し、インテリジェントなEMBパーティショニングと、階層化されたメモリ階層に配置するパフォーマンス最適化の機会を提供する。
第二に、現代のDLRMでは、EMBはハッシュテーブルとして機能する。
その結果、ESBは誕生日のパラドックスのような興味深い現象を示し、ESBはひどく活用されていない。
RecShardは、トレーニングデータ分布とモデル特性と、基礎となる結合メモリ階層の帯域特性に基づいて、一連のEMBに対する最適なEMBシャーディング戦略を決定する。
そうすることで、RecShardは容量制限DLRMに対して平均6倍以上のMBトレーニングスループットを達成する。
スループットの向上は、EMBロードバランシングの改善を12回以上、遅いメモリへのアクセスを87回以上削減することによるものだ。
関連論文リスト
- AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - Mem-Rec: Memory Efficient Recommendation System using Alternative
Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。
MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文 参考訳(メタデータ) (2023-05-12T02:36:07Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - In-memory Realization of In-situ Few-shot Continual Learning with a
Dynamically Evolving Explicit Memory [11.838117086685399]
古いクラスを忘れずに、いくつかのトレーニング例から新しいクラスを継続的に学習するには、柔軟なアーキテクチャが必要である。
1つの実行可能なアーキテクチャソリューションは、定常的なディープニューラルネットワークを動的に進化する明示的メモリ(EM)に密結合することである。
EMユニットが複数のトレーニング例を物理的に重畳し、未知のクラスに対応できるように拡張し、推論中に類似性検索を行う方法を初めて示す。
論文 参考訳(メタデータ) (2022-07-14T10:38:21Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。