論文の概要: Faster and Memory-Efficient Training of Sequential Recommendation Models for Large Catalogs
- arxiv url: http://arxiv.org/abs/2509.09682v2
- Date: Fri, 24 Oct 2025 16:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.323314
- Title: Faster and Memory-Efficient Training of Sequential Recommendation Models for Large Catalogs
- Title(参考訳): 大規模カタログの逐次推薦モデルの高速化とメモリ効率向上
- Authors: Maxim Zhelnin, Dmitry Redko, Volkov Daniil, Anna Volodkevich, Petr Sokerin, Valeriy Shevchenko, Egor Shvetsov, Alexey Vasilev, Darya Denisova, Ruslan Izmailov, Alexey Zaytsev,
- Abstract要約: 負サンプリングによるクロスエントロピー損失をGPU効率よく実装するCCE-法を提案する。
本手法は,メモリ消費を10倍以上削減しつつ,最大2倍のトレーニングを高速化する。
- 参考スコア(独自算出の注目度): 3.0832329178398967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendations (SR) with transformer-based architectures are widely adopted in real-world applications, where SR models require frequent retraining to adapt to ever-changing user preferences. However, training transformer-based SR models often encounters a high computational cost associated with scoring extensive item catalogs, often exceeding thousands of items. This occurs mainly due to the use of cross-entropy loss, where peak memory scales proportionally to catalog size, batch size, and sequence length. Recognizing this, practitioners in the field of recommendation systems typically address memory consumption by integrating the cross-entropy (CE) loss with negative sampling, thereby reducing the explicit memory demands of the final layer. However, a small number of negative samples would degrade model performance, and as we demonstrate in our work, increasing the number of negative samples and the batch size further improves the model's performance, but rapidly starts to exceed industrial GPUs' size (~40Gb). In this work, we introduce the CCE- method, which offers a GPU-efficient implementation of the CE loss with negative sampling. Our method accelerates training by up to two times while reducing memory consumption by more than 10 times. Leveraging the memory savings afforded by using CCE- for model training, it becomes feasible to enhance its accuracy on datasets with a large item catalog compared to those trained with original PyTorch-implemented loss functions. Finally, we perform an analysis of key memory-related hyperparameters and highlight the necessity of a delicate balance among these factors. We demonstrate that scaling both the number of negative samples and batch size leads to better results rather than maximizing only one of them. To facilitate further adoption of CCE-, we release a Triton kernel that efficiently implements the proposed method.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャを備えた逐次レコメンデーション(SR)は現実世界のアプリケーションで広く採用されている。
しかし、トランスフォーマーをベースとしたSRモデルのトレーニングは、広範囲のアイテムカタログを収集する際の高い計算コストに直面することが多い。
これは主にクロスエントロピー損失(英語版)の使用によるもので、ピークメモリはカタログサイズ、バッチサイズ、シーケンス長に比例してスケールする。
これを認識し、レコメンデーションシステムの実践者は、一般的に、クロスエントロピー(CE)損失を負のサンプリングと統合することにより、最終層の明示的なメモリ要求を減らすことで、メモリ消費に対処する。
しかし、少数の負のサンプルがモデルの性能を低下させ、我々の研究で示すように、負のサンプルの数が増え、バッチサイズがモデルの性能をさらに向上させるが、急速に工業用GPU(約40Gb)を超え始める。
本稿では,CE損失を負のサンプリングでGPU効率よく実装するCCE法を提案する。
本手法は,メモリ消費を10倍以上削減しつつ,最大2倍のトレーニングを高速化する。
モデルトレーニングにCCE-を用いることで得られるメモリ節約を活用すれば、オリジナルのPyTorch実装の損失関数と比較すると、大きな項目カタログを持つデータセット上での精度を高めることが可能になる。
最後に、キーメモリ関連ハイパーパラメータの分析を行い、これらの要因間の微妙なバランスの必要性を強調した。
負のサンプル数とバッチサイズの両方のスケーリングが、その中の1つだけを最大化するのではなく、より良い結果をもたらすことを示した。
CCEのさらなる採用を容易にするため,提案手法を効率的に実装したTritonカーネルをリリースする。
関連論文リスト
- ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs [4.165917157093442]
本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。
大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。
複数のデータセットに対する実験結果から,SCEのピークメモリ使用率を最大100倍に抑える効果が示された。
論文 参考訳(メタデータ) (2024-09-27T13:17:59Z) - RECE: Reduced Cross-Entropy Loss for Large-Catalogue Sequential Recommenders [4.165917157093442]
本稿では,RECE(Reduced Cross-Entropy)の損失について紹介する。
RECEは、完全なCE損失の最先端性能を享受しながら、メモリ消費を大幅に削減する。
各種データセットによる実験結果から,RECEは既存の手法に比べて最大12倍のトレーニングピークメモリ使用量を削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-05T10:02:29Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。