論文の概要: Scaling Sequential Recommendation Models with Transformers
- arxiv url: http://arxiv.org/abs/2412.07585v1
- Date: Tue, 10 Dec 2024 15:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:37.216079
- Title: Scaling Sequential Recommendation Models with Transformers
- Title(参考訳): 変圧器を用いた逐次推薦モデルのスケーリング
- Authors: Pablo Zivic, Hernan Vazquez, Jorge Sanchez,
- Abstract要約: 我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。
計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。
また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Modeling user preferences has been mainly addressed by looking at users' interaction history with the different elements available in the system. Tailoring content to individual preferences based on historical data is the main goal of sequential recommendation. The nature of the problem, as well as the good performance observed across various domains, has motivated the use of the transformer architecture, which has proven effective in leveraging increasingly larger amounts of training data when accompanied by an increase in the number of model parameters. This scaling behavior has brought a great deal of attention, as it provides valuable guidance in the design and training of even larger models. Taking inspiration from the scaling laws observed in training large language models, we explore similar principles for sequential recommendation. We use the full Amazon Product Data dataset, which has only been partially explored in other studies, and reveal scaling behaviors similar to those found in language models. Compute-optimal training is possible but requires a careful analysis of the compute-performance trade-offs specific to the application. We also show that performance scaling translates to downstream tasks by fine-tuning larger pre-trained models on smaller task-specific domains. Our approach and findings provide a strategic roadmap for model training and deployment in real high-dimensional preference spaces, facilitating better training and inference efficiency. We hope this paper bridges the gap between the potential of transformers and the intrinsic complexities of high-dimensional sequential recommendation in real-world recommender systems. Code and models can be found at https://github.com/mercadolibre/srt
- Abstract(参考訳): ユーザー嗜好のモデル化は、主にシステムで利用可能なさまざまな要素とのインタラクション履歴を調べることで解決されてきた。
歴史的データに基づいて個別の嗜好にコンテンツを置くことが、シーケンシャルなレコメンデーションの主目的である。
問題の性質と、様々な領域で観察される優れた性能は、モデルパラメータの増加に伴うトレーニングデータの増加に有効であるトランスフォーマーアーキテクチャの使用を動機付けている。
このスケーリング行動は、より大きなモデルの設計とトレーニングにおいて貴重なガイダンスを提供するため、大きな注目を集めています。
大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために、同様の原則を探求する。
我々はAmazon Product Dataの全データセットを使用し、これは他の研究で部分的に研究されているだけで、言語モデルで見られるのと同じようなスケーリングの振る舞いを明らかにします。
計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。
また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
我々のアプローチと知見は、モデルトレーニングと実際の高次元の嗜好空間での展開のための戦略的ロードマップを提供し、より良いトレーニングと推論効率を促進する。
本稿では,実世界のレコメンデーションシステムにおいて,トランスフォーマーの可能性と高次元シーケンシャルレコメンデーションの本質的な複雑さのギャップを埋めることを期待している。
コードとモデルはhttps://github.com/mercadolibre/srtで確認できる。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。
このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文 参考訳(メタデータ) (2021-08-13T04:21:21Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - Self-supervised Learning for Large-scale Item Recommendations [18.19202958502061]
大規模なレコメンデータモデルは、巨大なカタログから最も関連性の高いアイテムを見つけ出す。
コーパスには何百万から数十億ものアイテムがあり、ユーザーはごく少数のユーザーに対してフィードバックを提供する傾向にある。
大規模項目推薦のためのマルチタスク自己教師型学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T06:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。