論文の概要: A Universal Framework for Compressing Embeddings in CTR Prediction
- arxiv url: http://arxiv.org/abs/2502.15355v1
- Date: Fri, 21 Feb 2025 10:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:13.488997
- Title: A Universal Framework for Compressing Embeddings in CTR Prediction
- Title(参考訳): CTR予測における埋め込み圧縮のためのユニバーサルフレームワーク
- Authors: Kefan Wang, Hao Wang, Kenan Song, Wei Guo, Kai Cheng, Zhi Li, Yong Liu, Defu Lian, Enhong Chen,
- Abstract要約: 本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
- 参考スコア(独自算出の注目度): 68.27582084015044
- License:
- Abstract: Accurate click-through rate (CTR) prediction is vital for online advertising and recommendation systems. Recent deep learning advancements have improved the ability to capture feature interactions and understand user interests. However, optimizing the embedding layer often remains overlooked. Embedding tables, which represent categorical and sequential features, can become excessively large, surpassing GPU memory limits and necessitating storage in CPU memory. This results in high memory consumption and increased latency due to frequent GPU-CPU data transfers. To tackle these challenges, we introduce a Model-agnostic Embedding Compression (MEC) framework that compresses embedding tables by quantizing pre-trained embeddings, without sacrificing recommendation quality. Our approach consists of two stages: first, we apply popularity-weighted regularization to balance code distribution between high- and low-frequency features. Then, we integrate a contrastive learning mechanism to ensure a uniform distribution of quantized codes, enhancing the distinctiveness of embeddings. Experiments on three datasets reveal that our method reduces memory usage by over 50x while maintaining or improving recommendation performance compared to existing models. The implementation code is accessible in our project repository https://github.com/USTC-StarTeam/MEC.
- Abstract(参考訳): 正確なクリックスルー率(CTR)の予測は、オンライン広告やレコメンデーションシステムにとって不可欠である。
近年のディープラーニングの進歩により、機能インタラクションをキャプチャし、ユーザの関心事を理解する能力が改善されている。
しかし、埋め込みレイヤの最適化は見過ごされがちである。
カテゴリ的およびシーケンシャルな特徴を表す埋め込みテーブルは、GPUメモリ限界を超越し、CPUメモリのストレージを必要とする、過度に大きくなる可能性がある。
これにより、GPU-CPUデータ転送が頻繁に行われるため、メモリ消費が増加し、レイテンシが増大する。
これらの課題に対処するために、推奨品質を犠牲にすることなく、事前学習した埋め込みを定量化することによって埋め込みテーブルを圧縮するモデル非依存の埋め込み圧縮(MEC)フレームワークを導入する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
そして、コントラスト学習機構を統合し、量子化されたコードの均一な分布を保証し、埋め込みの特異性を高める。
3つのデータセットの実験から,提案手法は既存のモデルに比べてメモリ使用率を50倍以上に抑えつつ,推奨性能を向上することが示された。
実装コードは、プロジェクトのリポジトリ https://github.com/USTC-StarTeam/MECでアクセスできます。
関連論文リスト
- PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Unified Low-rank Compression Framework for Click-through Rate Prediction [15.813889566241539]
本稿では,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。
私たちのフレームワークはオリジナルのモデルよりも優れたパフォーマンスを実現できます。
我々のフレームワークは、様々なCTR予測モデルにテーブルやレイヤーを埋め込むのに利用できる。
論文 参考訳(メタデータ) (2024-05-28T13:06:32Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models [32.29421689725037]
既存の埋め込み圧縮ソリューションは、メモリ効率、低レイテンシ、動的データ分散への適応性の3つの重要な設計要件を同時に満たすことはできない。
Caffeは、上記の要件に対処するコンパクトで適応的で高速な埋め込み圧縮フレームワークである。
Caffe は既存の埋め込み圧縮法を著しく上回り、Criteo Kaggle データセットと CriteoTB データセットで10000倍の圧縮比で AUC を3.92%と3.68%上回っている。
論文 参考訳(メタデータ) (2023-12-06T03:09:19Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Error Feedback Can Accurately Compress Preconditioners [43.60787513716217]
ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような、正確な完全行列プリコンディショニングのための既存のアプローチは、小規模モデルにも適用した場合に膨大なストレージコストを被る。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
論文 参考訳(メタデータ) (2023-06-09T17:58:47Z) - Clustering the Sketch: A Novel Approach to Embedding Table Compression [0.0]
Clustered Compositional Embeddings (CCE)は、量子化のようなクラスタリングベースの圧縮と、コードブックと、The Hashing Trickのような動的メソッドを組み合わせる。
CCEは両方の世界の長所を達成している: コードブックベースの量子化の圧縮率が高いが、*動的に*ハッシュベースのメソッドのように、トレーニング中に使用することができる。
論文 参考訳(メタデータ) (2022-10-12T07:37:01Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。