Fugu-MT 論文翻訳(概要): RecShard: Statistical Feature-Based Memory Optimization for Industry-Scale Neural Recommendation

論文の概要: RecShard: Statistical Feature-Based Memory Optimization for Industry-Scale Neural Recommendation

arxiv url: http://arxiv.org/abs/2201.10095v1
Date: Tue, 25 Jan 2022 04:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-26 16:54:20.115005
Title: RecShard: Statistical Feature-Based Memory Optimization for Industry-Scale Neural Recommendation
Title（参考訳）: RecShard: 産業規模のニューラルレコメンデーションのための統計的特徴ベースメモリ最適化
Authors: Geet Sethi, Bilge Acun, Niket Agarwal, Christos Kozyrakis, Caroline Trippel, Carole-Jean Wu
Abstract要約: RecShardは、ディープラーニングレコメンデーションモデル(DLRM)のための微細な埋め込みテーブル(EMB)分割と配置技術である RecShardは容量制限のDLRMに対して平均6倍以上のMBトレーニングスループットを実現している。
参考スコア（独自算出の注目度）: 3.89008964929505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose RecShard, a fine-grained embedding table (EMB) partitioning and placement technique for deep learning recommendation models (DLRMs). RecShard is designed based on two key observations. First, not all EMBs are equal, nor all rows within an EMB are equal in terms of access patterns. EMBs exhibit distinct memory characteristics, providing performance optimization opportunities for intelligent EMB partitioning and placement across a tiered memory hierarchy. Second, in modern DLRMs, EMBs function as hash tables. As a result, EMBs display interesting phenomena, such as the birthday paradox, leaving EMBs severely under-utilized. RecShard determines an optimal EMB sharding strategy for a set of EMBs based on training data distributions and model characteristics, along with the bandwidth characteristics of the underlying tiered memory hierarchy. In doing so, RecShard achieves over 6 times higher EMB training throughput on average for capacity constrained DLRMs. The throughput increase comes from improved EMB load balance by over 12 times and from the reduced access to the slower memory by over 87 times.
Abstract（参考訳）: 本稿では,ディープラーニングレコメンデーションモデル(DLRM)のための細粒度埋め込みテーブル(EMB)分割と配置技術であるRecShardを提案する。 RecShardは2つの重要な観測に基づいて設計されている。第一に、すべての EMB が等しいわけではないし、アクセスパターンの点で EMB 内のすべての行が等しいわけでもない。 EMBは異なるメモリ特性を示し、インテリジェントなEMBパーティショニングと、階層化されたメモリ階層に配置するパフォーマンス最適化の機会を提供する。第二に、現代のDLRMでは、EMBはハッシュテーブルとして機能する。その結果、ESBは誕生日のパラドックスのような興味深い現象を示し、ESBはひどく活用されていない。 RecShardは、トレーニングデータ分布とモデル特性と、基礎となる結合メモリ階層の帯域特性に基づいて、一連のEMBに対する最適なEMBシャーディング戦略を決定する。そうすることで、RecShardは容量制限DLRMに対して平均6倍以上のMBトレーニングスループットを達成する。スループットの向上は、EMBロードバランシングの改善を12回以上、遅いメモリへのアクセスを87回以上削減することによるものだ。

関連論文リスト

Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.47829333855806]
ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-05T19:12:18Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。 UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文参考訳（メタデータ） (2024-06-20T02:20:21Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2023-08-28T06:56:08Z)
Mem-Rec: Memory Efficient Recommendation System using Alternative Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。 MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文参考訳（メタデータ） (2023-05-12T02:36:07Z)
MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文参考訳（メタデータ） (2023-04-19T06:06:06Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文参考訳（メタデータ） (2021-02-24T19:55:49Z)
SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。 SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文参考訳（メタデータ） (2021-01-04T18:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。