論文の概要: Scaling Transformers for Discriminative Recommendation via Generative Pretraining
- arxiv url: http://arxiv.org/abs/2506.03699v1
- Date: Wed, 04 Jun 2025 08:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.23298
- Title: Scaling Transformers for Discriminative Recommendation via Generative Pretraining
- Title(参考訳): 生成前処理による識別推薦用変圧器のスケーリング
- Authors: Chunqi Wang, Bingchao Wu, Zheng Chen, Lei Shen, Bing Wang, Xiaoyi Zeng,
- Abstract要約: オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
- 参考スコア(独自算出の注目度): 15.796591192359044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discriminative recommendation tasks, such as CTR (click-through rate) and CVR (conversion rate) prediction, play critical roles in the ranking stage of large-scale industrial recommender systems. However, training a discriminative model encounters a significant overfitting issue induced by data sparsity. Moreover, this overfitting issue worsens with larger models, causing them to underperform smaller ones. To address the overfitting issue and enhance model scalability, we propose a framework named GPSD (\textbf{G}enerative \textbf{P}retraining for \textbf{S}calable \textbf{D}iscriminative Recommendation), drawing inspiration from generative training, which exhibits no evident signs of overfitting. GPSD leverages the parameters learned from a pretrained generative model to initialize a discriminative model, and subsequently applies a sparse parameter freezing strategy. Extensive experiments conducted on both industrial-scale and publicly available datasets demonstrate the superior performance of GPSD. Moreover, it delivers remarkable improvements in online A/B tests. GPSD offers two primary advantages: 1) it substantially narrows the generalization gap in model training, resulting in better test performance; and 2) it leverages the scalability of Transformers, delivering consistent performance gains as models are scaled up. Specifically, we observe consistent performance improvements as the model dense parameters scale from 13K to 0.3B, closely adhering to power laws. These findings pave the way for unifying the architectures of recommendation models and language models, enabling the direct application of techniques well-established in large language models to recommendation models.
- Abstract(参考訳): CTR(クリックスルーレート)やCVR(コンバージョンレート)予測といった差別的なレコメンデーションタスクは、大規模産業レコメンデーションシステムのランキングステージにおいて重要な役割を果たす。
しかし、識別モデルのトレーニングは、データの分散によって引き起こされる重大な過度な問題に遭遇する。
さらに、この過度に適合する問題は、より大きなモデルでは悪化し、より小さなモデルでは性能が低下する。
オーバーフィッティング問題に対処し、モデルのスケーラビリティを向上させるために、GPSD(\textbf{G}enerative \textbf{P}retraining for \textbf{S}calable \textbf{D}iscriminative Recommendation)というフレームワークを提案する。
GPSDは、事前訓練された生成モデルから得られたパラメータを利用して識別モデルを初期化し、その後、スパースパラメータ凍結戦略を適用する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
さらに、オンラインA/Bテストでも大幅に改善されている。
GPSDには2つの利点がある。
1)モデルトレーニングにおける一般化ギャップを著しく狭め、テスト性能が向上する。
2) トランスフォーマーのスケーラビリティを活用し、モデルがスケールアップされるにつれて一貫したパフォーマンス向上を提供する。
具体的には、モデル密度パラメータが13Kから0.3Bにスケールするにつれて、一貫した性能向上が観察され、電力法則に密着している。
これらの知見は、レコメンデーションモデルと言語モデルのアーキテクチャを統一する方法を開拓し、大規模言語モデルで確立されたテクニックを直接適用してレコメンデーションモデルを実現する。
関連論文リスト
- Scaling Sequential Recommendation Models with Transformers [0.0]
我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。
計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。
また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
論文 参考訳(メタデータ) (2024-12-10T15:20:56Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。