論文の概要: DQRM: Deep Quantized Recommendation Models
- arxiv url: http://arxiv.org/abs/2410.20046v1
- Date: Sat, 26 Oct 2024 02:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:36.187041
- Title: DQRM: Deep Quantized Recommendation Models
- Title(参考訳): DQRM:Deep Quantized Recommendation Models
- Authors: Yang Zhou, Zhen Dong, Ellick Chan, Dhiraj Kalamkar, Diana Marculescu, Kurt Keutzer,
- Abstract要約: 大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.73674946187648
- License:
- Abstract: Large-scale recommendation models are currently the dominant workload for many large Internet companies. These recommenders are characterized by massive embedding tables that are sparsely accessed by the index for user and item features. The size of these 1TB+ tables imposes a severe memory bottleneck for the training and inference of recommendation models. In this work, we propose a novel recommendation framework that is small, powerful, and efficient to run and train, based on the state-of-the-art Deep Learning Recommendation Model (DLRM). The proposed framework makes inference more efficient on the cloud servers, explores the possibility of deploying powerful recommenders on smaller edge devices, and optimizes the workload of the communication overhead in distributed training under the data parallelism settings. Specifically, we show that quantization-aware training (QAT) can impose a strong regularization effect to mitigate the severe overfitting issues suffered by DLRMs. Consequently, we achieved INT4 quantization of DLRM models without any accuracy drop. We further propose two techniques that improve and accelerate the conventional QAT workload specifically for the embedding tables in the recommendation models. Furthermore, to achieve efficient training, we quantize the gradients of the embedding tables into INT8 on top of the well-supported specified sparsification. We show that combining gradient sparsification and quantization together significantly reduces the amount of communication. Briefly, DQRM models with INT4 can achieve 79.07% accuracy on Kaggle with 0.27 GB model size, and 81.21% accuracy on the Terabyte dataset with 1.57 GB, which even outperform FP32 DLRMs that have much larger model sizes (2.16 GB on Kaggle and 12.58 on Terabyte).
- Abstract(参考訳): 大規模なレコメンデーションモデルは現在、多くの大手インターネット企業の主要な作業負荷となっている。
これらのレコメンデータの特徴は、ユーザとアイテムの機能に対してインデックスによってわずかにアクセスされる巨大な埋め込みテーブルである。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
本研究では,現在最先端のDeep Learning Recommendation Model(DLRM)に基づいて,小規模で強力で,かつ,実行およびトレーニングに効率の良い新しい推薦フレームワークを提案する。
提案したフレームワークは、クラウドサーバ上での推論をより効率的にし、より小さなエッジデバイスに強力なレコメンデータをデプロイする可能性を探り、データ並列性設定下での分散トレーニングにおける通信オーバーヘッドのワークロードを最適化する。
具体的には、量子化対応トレーニング(QAT)がDLRMが抱える過度なオーバーフィッティング問題を緩和するために、強い正規化効果を課すことが示される。
その結果,DLRMモデルのINT4量子化を精度低下なく達成した。
さらに,従来のQATの作業量を改善するための2つの手法を提案する。
さらに、効率的なトレーニングを実現するために、よく支持された特定スパシフィケーションの上に埋め込みテーブルの勾配をINT8に量子化する。
勾配スペーシフィケーションと量子化を組み合わせることで、通信量を大幅に削減できることを示す。
簡単に言えば、INT4 の DQRM モデルは Kaggle の 79.07% の精度を 0.27 GB のモデルサイズで達成でき、Terabyte のデータセットでは 1.57 GB の 81.21% の精度を達成でき、モデルサイズがより大きい FP32 DLRM よりも優れている(Kaggle の 2.16 GB と Terabyte の 12.58 )。
関連論文リスト
- GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。
GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文 参考訳(メタデータ) (2024-05-30T02:37:35Z) - Fine-Grained Embedding Dimension Optimization During Training for Recommender Systems [17.602059421895856]
FIITEDは、FIne-fine In-Training Embedding Dimension Pruningを通じてメモリフットプリントを自動的に削減するシステムである。
FIITEDは,モデル品質を維持しつつ,DLRMの埋め込みサイズを65%以上削減できることを示す。
公開データセットでは、FIITEDはテーブルの埋め込みサイズを2.1倍から800倍に減らすことができる。
論文 参考訳(メタデータ) (2024-01-09T08:04:11Z) - Mem-Rec: Memory Efficient Recommendation System using Alternative
Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。
MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文 参考訳(メタデータ) (2023-05-12T02:36:07Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。