論文の概要: CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models
- arxiv url: http://arxiv.org/abs/2312.03256v2
- Date: Wed, 27 Mar 2024 03:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-28 22:33:12.691088
- Title: CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models
- Title(参考訳): CAFE: 大規模レコメンデーションモデルのためのコンパクトで適応的で高速な埋め込みを目指して
- Authors: Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, Bin Cui,
- Abstract要約: 既存の埋め込み圧縮ソリューションは、メモリ効率、低レイテンシ、動的データ分散への適応性の3つの重要な設計要件を同時に満たすことはできない。
Caffeは、上記の要件に対処するコンパクトで適応的で高速な埋め込み圧縮フレームワークである。
Caffe は既存の埋め込み圧縮法を著しく上回り、Criteo Kaggle データセットと CriteoTB データセットで10000倍の圧縮比で AUC を3.92%と3.68%上回っている。
- 参考スコア(独自算出の注目度): 32.29421689725037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the growing memory demands of embedding tables in Deep Learning Recommendation Models (DLRMs) pose great challenges for model training and deployment. Existing embedding compression solutions cannot simultaneously meet three key design requirements: memory efficiency, low latency, and adaptability to dynamic data distribution. This paper presents CAFE, a Compact, Adaptive, and Fast Embedding compression framework that addresses the above requirements. The design philosophy of CAFE is to dynamically allocate more memory resources to important features (called hot features), and allocate less memory to unimportant ones. In CAFE, we propose a fast and lightweight sketch data structure, named HotSketch, to capture feature importance and report hot features in real time. For each reported hot feature, we assign it a unique embedding. For the non-hot features, we allow multiple features to share one embedding by using hash embedding technique. Guided by our design philosophy, we further propose a multi-level hash embedding framework to optimize the embedding tables of non-hot features. We theoretically analyze the accuracy of HotSketch, and analyze the model convergence against deviation. Extensive experiments show that CAFE significantly outperforms existing embedding compression methods, yielding 3.92% and 3.68% superior testing AUC on Criteo Kaggle dataset and CriteoTB dataset at a compression ratio of 10000x. The source codes of CAFE are available at GitHub.
- Abstract(参考訳): 近年,DLRM(Deep Learning Recommendation Models)にテーブルを埋め込むことによるメモリ需要の増加は,モデルトレーニングやデプロイメントにおいて大きな課題となっている。
既存の埋め込み圧縮ソリューションは、メモリ効率、低レイテンシ、動的データ分散への適応性の3つの重要な設計要件を同時に満たすことはできない。
本稿では、上記の要件に対処する、コンパクトで適応的で高速な埋め込み圧縮フレームワークであるCAFEについて述べる。
CAFEの設計哲学は、重要な機能(ホット機能と呼ばれる)により多くのメモリリソースを動的に割り当て、重要でない機能にメモリを割り当てることである。
本稿では,高速かつ軽量なスケッチデータ構造であるHotSketchを提案する。
報告されたホットな機能ごとに、ユニークな埋め込みを割り当てます。
ホットでない機能については、ハッシュ埋め込み技術を用いて複数の機能を1つの埋め込みで共有できるようにします。
設計思想を参考に,非ホット機能の埋め込みテーブルを最適化するマルチレベルハッシュ埋め込みフレームワークを提案する。
理論的にはHotSketchの精度を解析し,モデル収束度を偏差に対して解析する。
大規模な実験により、CAFEは既存の埋め込み圧縮法を著しく上回り、Criteo KaggleデータセットとCriteoTBデータセットで10000倍の圧縮比でAUCを3.92%と3.68%上回った。
CAFEのソースコードはGitHubで入手できる。
関連論文リスト
- A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - HEMGS: A Hybrid Entropy Model for 3D Gaussian Splatting Data Compression [25.820461699307042]
本稿では,3次元ガウススプラッティング(HEMGS)のためのハイブリッドエントロピーモデルを提案する。
変数レート予測器、ハイパープライアネットワーク、自動回帰ネットワークの3つの主要コンポーネントで構成されている。
HEMGSは、ベースラインメソッドのレンダリング品質を維持しながら、約40%のサイズ削減を実現している。
論文 参考訳(メタデータ) (2024-11-27T16:08:59Z) - Mixed-Precision Embeddings for Large-Scale Recommendation Models [19.93156309493436]
混合精密埋め込み(Mixed-Precision Embeddings、MPE)は、新しい埋め込み圧縮法である。
MPEは予測精度を含まないまま、Criteoデータセット上で約200倍の圧縮を実現している。
論文 参考訳(メタデータ) (2024-09-30T14:04:27Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Unified Low-rank Compression Framework for Click-through Rate Prediction [15.813889566241539]
本稿では,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。
私たちのフレームワークはオリジナルのモデルよりも優れたパフォーマンスを実現できます。
我々のフレームワークは、様々なCTR予測モデルにテーブルやレイヤーを埋め込むのに利用できる。
論文 参考訳(メタデータ) (2024-05-28T13:06:32Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - BagPipe: Accelerating Deep Recommendation Model Training [9.911467752221863]
Bagpipeは、キャッシュとプレフェッチを使用して、リモート埋め込みアクセスと計算を重複させるディープレコメンデーションモデルをトレーニングするシステムである。
私たちは、ルックアヘッドアルゴリズムを使用して最適なキャッシュ更新決定を生成する新しいコンポーネントであるOracle Cacherを設計します。
論文 参考訳(メタデータ) (2022-02-24T23:54:12Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。