論文の概要: Efficient Inference of Sub-Item Id-based Sequential Recommendation Models with Millions of Items
- arxiv url: http://arxiv.org/abs/2408.09992v1
- Date: Mon, 19 Aug 2024 13:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:22:23.521108
- Title: Efficient Inference of Sub-Item Id-based Sequential Recommendation Models with Millions of Items
- Title(参考訳): 数百万項目からなるサブ項目Idに基づくシーケンスレコメンデーションモデルの効率的推論
- Authors: Aleksandr V. Petrov, Craig Macdonald, Nicola Tonellotto,
- Abstract要約: PQTopKアルゴリズムを用いてRecJPQに基づくモデルの推論効率を改善することができることを示す。
我々は、RecJPQで強化されたSASRecを、元のSASRecの推論手法に比べて4.5倍、RecJPQコードで実装された手法に比べて1.56倍の速度で高速化する。
- 参考スコア(独自算出の注目度): 63.117573355917465
- License:
- Abstract: Transformer-based recommender systems, such as BERT4Rec or SASRec, achieve state-of-the-art results in sequential recommendation. However, it is challenging to use these models in production environments with catalogues of millions of items: scaling Transformers beyond a few thousand items is problematic for several reasons, including high model memory consumption and slow inference. In this respect, RecJPQ is a state-of-the-art method of reducing the models' memory consumption; RecJPQ compresses item catalogues by decomposing item IDs into a small number of shared sub-item IDs. Despite reporting the reduction of memory consumption by a factor of up to 50x, the original RecJPQ paper did not report inference efficiency improvements over the baseline Transformer-based models. Upon analysing RecJPQ's scoring algorithm, we find that its efficiency is limited by its use of score accumulators for each item, which prevents parallelisation. In contrast, LightRec (a non-sequential method that uses a similar idea of sub-ids) reported large inference efficiency improvements using an algorithm we call PQTopK. We show that it is also possible to improve RecJPQ-based models' inference efficiency using the PQTopK algorithm. In particular, we speed up RecJPQ-enhanced SASRec by a factor of 4.5 x compared to the original SASRec's inference method and by a factor of 1.56 x compared to the method implemented in RecJPQ code on a large-scale Gowalla dataset with more than a million items. Further, using simulated data, we show that PQTopK remains efficient with catalogues of up to tens of millions of items, removing one of the last obstacles to using Transformer-based models in production environments with large catalogues.
- Abstract(参考訳): BERT4RecやSASRecのようなトランスフォーマーベースのレコメンデーションシステムは、シーケンシャルなレコメンデーションで最先端の結果を達成する。
しかし、数千項目を越えるトランスフォーマーのスケーリングは、高モデルメモリ消費や遅い推論など、いくつかの理由から問題となっている。
RecJPQは、アイテムIDを少数の共有サブストリームIDに分解することで、アイテムカタログを圧縮する。
RecJPQでは,最大50倍のメモリ消費削減を報告したが,ベースライントランスフォーマーモデルに対する推論効率の改善は報告されなかった。
RecJPQのスコアリングアルゴリズムを分析すると、その効率は各項目にスコアアキュムレータを用いることで制限され、並列化が防止される。
対照的に、LightRecは、PQTopKと呼ばれるアルゴリズムを用いて、大規模な推論効率の改善を報告した。
PQTopKアルゴリズムを用いてRecJPQに基づくモデルの推論効率を向上させることも可能であることを示す。
特に、RecJPQで強化されたSASRecを、元のSASRecの推論手法と比較して4.5倍、大規模Gowallaデータセット上で実装されたRecJPQコードに実装された手法と比較して1.56倍の速度で高速化する。
さらに、シミュレーションデータを用いて、PQTopKは最大数千万項目のカタログで効率的であることを示し、大規模なカタログを持つプロダクション環境でTransformerベースのモデルを使用する際の最後の障害の1つを取り除く。
関連論文リスト
- Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs [4.165917157093442]
本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。
大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。
複数のデータセットに対する実験結果から,SCEのピークメモリ使用率を最大100倍に抑える効果が示された。
論文 参考訳(メタデータ) (2024-09-27T13:17:59Z) - Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning [16.287067991245962]
現実世界のシステムでは、新しいモデルに対する重要な考慮は、トップkレコメンデーションの新規性である。
本稿では,大規模言語モデルが新しい項目に対するフィードバックを提供する強化学習(RL)の定式化を提案する。
大規模検索エンジンにおけるクエリーアドレコメンデーションタスクの新規性向上のための提案アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-06-20T10:20:02Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - One model Packs Thousands of Items with Recurrent Conditional Query
Learning [8.821298331302563]
本稿では,2次元および3次元のパッキング問題を解決するためにRCQL法を提案する。
RCQLは、オフラインの2D 40-boxケースでは平均ビンギャップ比を1.83%削減し、3Dケースでは7.84%削減する。
論文 参考訳(メタデータ) (2021-11-12T14:00:30Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - QCBA: Improving Rule Classifiers Learned from Quantitative Data by
Recovering Information Lost by Discretisation [5.667821885065119]
本稿では、離散化における損失情報を復元することを目的とした新しいルールチューニング手順と新しいプルーニング手法について述べる。
提案したQCBA法は,アソシエーション(CBA)アルゴリズムに基づく分類によって生成されたモデルの定量的属性を後処理するために開発された。
UCIリポジトリの22のデータセットのベンチマークでは、FOIL2+QCBAの7つのベースラインと比較して、サイズが小さく、全体的な最高の予測性能を示している。
論文 参考訳(メタデータ) (2017-11-28T08:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。