論文の概要: Mixed-Precision Embeddings for Large-Scale Recommendation Models
- arxiv url: http://arxiv.org/abs/2409.20305v2
- Date: Thu, 17 Oct 2024 13:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:30:26.158933
- Title: Mixed-Precision Embeddings for Large-Scale Recommendation Models
- Title(参考訳): 大規模レコメンデーションモデルのための混合精密埋め込み
- Authors: Shiwei Li, Zhuoqi Hu, Xing Tang, Haozhao Wang, Shijie Xu, Weihong Luo, Yuhua Li, Xiuqiang He, Ruixuan Li,
- Abstract要約: 混合精密埋め込み(Mixed-Precision Embeddings、MPE)は、新しい埋め込み圧縮法である。
MPEは予測精度を含まないまま、Criteoデータセット上で約200倍の圧縮を実現している。
- 参考スコア(独自算出の注目度): 19.93156309493436
- License:
- Abstract: Embedding techniques have become essential components of large databases in the deep learning era. By encoding discrete entities, such as words, items, or graph nodes, into continuous vector spaces, embeddings facilitate more efficient storage, retrieval, and processing in large databases. Especially in the domain of recommender systems, millions of categorical features are encoded as unique embedding vectors, which facilitates the modeling of similarities and interactions among features. However, numerous embedding vectors can result in significant storage overhead. In this paper, we aim to compress the embedding table through quantization techniques. Given that features vary in importance levels, we seek to identify an appropriate precision for each feature to balance model accuracy and memory usage. To this end, we propose a novel embedding compression method, termed Mixed-Precision Embeddings (MPE). Specifically, to reduce the size of the search space, we first group features by frequency and then search precision for each feature group. MPE further learns the probability distribution over precision levels for each feature group, which can be used to identify the most suitable precision with a specially designed sampling strategy. Extensive experiments on three public datasets demonstrate that MPE significantly outperforms existing embedding compression methods. Remarkably, MPE achieves about 200x compression on the Criteo dataset without comprising the prediction accuracy.
- Abstract(参考訳): 埋め込み技術は、ディープラーニング時代において、大規模データベースの重要な構成要素となっている。
単語、アイテム、グラフノードなどの独立したエンティティを連続したベクトル空間に符号化することで、埋め込みは大規模データベースのより効率的な保存、検索、処理を促進する。
特にレコメンデータシステムの領域では、数百万のカテゴリ的特徴がユニークな埋め込みベクトルとして符号化され、特徴間の類似性や相互作用のモデリングが容易になる。
しかし、多くの埋め込みベクトルは、かなりのストレージオーバーヘッドをもたらす可能性がある。
本稿では,量子化手法を用いて埋め込みテーブルを圧縮することを目的とする。
特徴が重要度によって異なることを考慮し、モデルの精度とメモリ使用量のバランスをとるために、各特徴に対して適切な精度を求める。
そこで本研究では,Mixed-Precision Embeddings (MPE) と呼ばれる新しい埋め込み圧縮手法を提案する。
具体的には、探索空間のサイズを小さくするために、まず特徴群を周波数でグループ化し、次に各特徴群を精度良く検索する。
MPEはさらに、各特徴群の精度レベルに対する確率分布を学習し、特別に設計されたサンプリング戦略を用いて最も適切な精度を識別することができる。
3つの公開データセットに対する大規模な実験は、MPEが既存の埋め込み圧縮方法よりも大幅に優れていることを示した。
注目すべきは、予測精度を含まないまま、MPEはCriteoデータセットの約200倍の圧縮を実現していることだ。
関連論文リスト
- LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Binary Embedding-based Retrieval at Tencent [30.44247353560061]
大規模埋め込み型検索 (EBR) は, 検索関連産業アプリケーションの基礎となっている。
本稿では,2進二進化アルゴリズムを組み込んだ2進埋め込み型検索エンジンを提案する。
私たちは、導入したBEBRをSogou、Tencent Video、QQ Worldなど、Tencent製品にうまく採用しました。
論文 参考訳(メタデータ) (2023-02-17T06:10:02Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Generalizable Mixed-Precision Quantization via Attribution Rank
Preservation [90.26603048354575]
効率的な推論のための一般化可能な混合精度量子化法(GMPQ)を提案する。
提案手法は,最先端の混合精度ネットワークと比較し,競合精度・複雑度トレードオフを求める。
論文 参考訳(メタデータ) (2021-08-05T16:41:57Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。