論文の概要: Faster and Memory-Efficient Training of Sequential Recommendation Models for Large Catalogs
- arxiv url: http://arxiv.org/abs/2509.09682v2
- Date: Fri, 24 Oct 2025 16:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.323314
- Title: Faster and Memory-Efficient Training of Sequential Recommendation Models for Large Catalogs
- Title(参考訳): 大規模カタログの逐次推薦モデルの高速化とメモリ効率向上
- Authors: Maxim Zhelnin, Dmitry Redko, Volkov Daniil, Anna Volodkevich, Petr Sokerin, Valeriy Shevchenko, Egor Shvetsov, Alexey Vasilev, Darya Denisova, Ruslan Izmailov, Alexey Zaytsev,
- Abstract要約: 負サンプリングによるクロスエントロピー損失をGPU効率よく実装するCCE-法を提案する。
本手法は,メモリ消費を10倍以上削減しつつ,最大2倍のトレーニングを高速化する。
- 参考スコア(独自算出の注目度): 3.0832329178398967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendations (SR) with transformer-based architectures are widely adopted in real-world applications, where SR models require frequent retraining to adapt to ever-changing user preferences. However, training transformer-based SR models often encounters a high computational cost associated with scoring extensive item catalogs, often exceeding thousands of items. This occurs mainly due to the use of cross-entropy loss, where peak memory scales proportionally to catalog size, batch size, and sequence length. Recognizing this, practitioners in the field of recommendation systems typically address memory consumption by integrating the cross-entropy (CE) loss with negative sampling, thereby reducing the explicit memory demands of the final layer. However, a small number of negative samples would degrade model performance, and as we demonstrate in our work, increasing the number of negative samples and the batch size further improves the model's performance, but rapidly starts to exceed industrial GPUs' size (~40Gb). In this work, we introduce the CCE- method, which offers a GPU-efficient implementation of the CE loss with negative sampling. Our method accelerates training by up to two times while reducing memory consumption by more than 10 times. Leveraging the memory savings afforded by using CCE- for model training, it becomes feasible to enhance its accuracy on datasets with a large item catalog compared to those trained with original PyTorch-implemented loss functions. Finally, we perform an analysis of key memory-related hyperparameters and highlight the necessity of a delicate balance among these factors. We demonstrate that scaling both the number of negative samples and batch size leads to better results rather than maximizing only one of them. To facilitate further adoption of CCE-, we release a Triton kernel that efficiently implements the proposed method.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャを備えた逐次レコメンデーション(SR)は現実世界のアプリケーションで広く採用されている。
しかし、トランスフォーマーをベースとしたSRモデルのトレーニングは、広範囲のアイテムカタログを収集する際の高い計算コストに直面することが多い。
これは主にクロスエントロピー損失(英語版)の使用によるもので、ピークメモリはカタログサイズ、バッチサイズ、シーケンス長に比例してスケールする。
これを認識し、レコメンデーションシステムの実践者は、一般的に、クロスエントロピー(CE)損失を負のサンプリングと統合することにより、最終層の明示的なメモリ要求を減らすことで、メモリ消費に対処する。
しかし、少数の負のサンプルがモデルの性能を低下させ、我々の研究で示すように、負のサンプルの数が増え、バッチサイズがモデルの性能をさらに向上させるが、急速に工業用GPU(約40Gb)を超え始める。
本稿では,CE損失を負のサンプリングでGPU効率よく実装するCCE法を提案する。
本手法は,メモリ消費を10倍以上削減しつつ,最大2倍のトレーニングを高速化する。
モデルトレーニングにCCE-を用いることで得られるメモリ節約を活用すれば、オリジナルのPyTorch実装の損失関数と比較すると、大きな項目カタログを持つデータセット上での精度を高めることが可能になる。
最後に、キーメモリ関連ハイパーパラメータの分析を行い、これらの要因間の微妙なバランスの必要性を強調した。
負のサンプル数とバッチサイズの両方のスケーリングが、その中の1つだけを最大化するのではなく、より良い結果をもたらすことを示した。
CCEのさらなる採用を容易にするため,提案手法を効率的に実装したTritonカーネルをリリースする。
関連論文リスト
- Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs [4.165917157093442]
本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。
大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。
複数のデータセットに対する実験結果から,SCEのピークメモリ使用率を最大100倍に抑える効果が示された。
論文 参考訳(メタデータ) (2024-09-27T13:17:59Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。