論文の概要: The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB)
- arxiv url: http://arxiv.org/abs/2207.10731v1
- Date: Thu, 21 Jul 2022 19:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:44:42.939504
- Title: The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB)
- Title(参考訳): 大型レコメンデーションモデルにおけるモデルサイズのトレードオフ : 10000$\times$ compressed Criteo-tb DLRM model (100 GB parameters to mere 10MB)
- Authors: Aditya Desai, Anshumali Shrivastava
- Abstract要約: 埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
- 参考スコア(独自算出の注目度): 40.623439224839245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding tables dominate industrial-scale recommendation model sizes, using
up to terabytes of memory. A popular and the largest publicly available machine
learning MLPerf benchmark on recommendation data is a Deep Learning
Recommendation Model (DLRM) trained on a terabyte of click-through data. It
contains 100GB of embedding memory (25+Billion parameters). DLRMs, due to their
sheer size and the associated volume of data, face difficulty in training,
deploying for inference, and memory bottlenecks due to large embedding tables.
This paper analyzes and extensively evaluates a generic parameter sharing setup
(PSS) for compressing DLRM models. We show theoretical upper bounds on the
learnable memory requirements for achieving $(1 \pm \epsilon)$ approximations
to the embedding table. Our bounds indicate exponentially fewer parameters
suffice for good accuracy. To this end, we demonstrate a PSS DLRM reaching
10000$\times$ compression on criteo-tb without losing quality. Such a
compression, however, comes with a caveat. It requires 4.5 $\times$ more
iterations to reach the same saturation quality. The paper argues that this
tradeoff needs more investigations as it might be significantly favorable.
Leveraging the small size of the compressed model, we show a 4.3$\times$
improvement in training latency leading to similar overall training times.
Thus, in the tradeoff between system advantage of a small DLRM model vs. slower
convergence, we show that scales are tipped towards having a smaller DLRM
model, leading to faster inference, easier deployment, and similar training
times.
- Abstract(参考訳): 埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
推奨データに関する機械学習MLPerfベンチマークは、テラバイトのクリックスルーデータに基づいてトレーニングされたDeep Learning Recommendation Model(DLRM)である。
100GBの埋め込みメモリ(25以上のBillionパラメータ)を含んでいる。
DLRMは、そのサイズと関連するデータ量のため、トレーニングの困難、推論のためのデプロイ、大きな埋め込みテーブルによるメモリボトルネックに直面します。
本稿では,dlrmモデル圧縮のための汎用パラメータ共有設定(pss)を分析し,広範囲に評価する。
埋め込みテーブルに$(1 \pm \epsilon)$近似を達成するための学習可能なメモリ要件に関する理論的上限を示す。
我々の限界は、精度の良いパラメータが指数関数的に少ないことを示している。
この目的のために,PSS DLRMが10000$\times$圧縮に達することをCriteo-tbで実証した。
しかし、このような圧縮には注意が必要だ。
同じ飽和品質に達するには4.5$\times$以上のイテレーションが必要です。
論文は、このトレードオフにはさらなる調査が必要であると主張している。
圧縮モデルの小さなサイズを活用すると、トレーニングレイテンシが4.3$\times$向上し、トレーニング時間全体が同じになる。
したがって、小さなDLRMモデルと遅い収束率のシステムの利点のトレードオフにおいて、スケールはより小さいDLRMモデルに向けられ、より高速な推論、より簡単なデプロイメント、同様のトレーニング時間をもたらすことが示される。
関連論文リスト
- DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。