論文の概要: Scaling Recommender Transformers to One Billion Parameters
- arxiv url: http://arxiv.org/abs/2507.15994v1
- Date: Mon, 21 Jul 2025 18:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.844097
- Title: Scaling Recommender Transformers to One Billion Parameters
- Title(参考訳): リコメンダ変換器の10億パラメータへのスケーリング
- Authors: Kirill Khrylchenko, Artem Matveev, Sergei Makeev, Vladimir Baikalov,
- Abstract要約: 最大10億個のパラメータを持つ大規模トランスフォーマーレコメンデータをトレーニングするためのレシピを提案する。
本研究では,ユーザ履歴における自己回帰学習が自然に2つのサブタスク,フィードバック予測と次点予測に分解されることを示す。
提案するアーキテクチャを,数百万のユーザを対象とした大規模音楽プラットフォームに展開することに成功したことを報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large transformer models have been successfully used in many real-world applications such as natural language processing, computer vision, and speech processing, scaling transformers for recommender systems remains a challenging problem. Recently, Generative Recommenders framework was proposed to scale beyond typical Deep Learning Recommendation Models (DLRMs). Reformulation of recommendation as sequential transduction task led to improvement of scaling properties in terms of compute. Nevertheless, the largest encoder configuration reported by the HSTU authors amounts only to ~176 million parameters, which is considerably smaller than the hundreds of billions or even trillions of parameters common in modern language models. In this work, we present a recipe for training large transformer recommenders with up to a billion parameters. We show that autoregressive learning on user histories naturally decomposes into two subtasks, feedback prediction and next-item prediction, and demonstrate that such a decomposition scales effectively across a wide range of transformer sizes. Furthermore, we report a successful deployment of our proposed architecture on a large-scale music platform serving millions of users. According to our online A/B tests, this new model increases total listening time by +2.26% and raises the likelihood of user likes by +6.37%, constituting (to our knowledge) the largest improvement in recommendation quality reported for any deep learning-based system in the platform's history.
- Abstract(参考訳): 自然言語処理、コンピュータビジョン、音声処理など、多くの現実世界で大きなトランスフォーマーモデルが使われているが、レコメンダシステムのスケーリングは依然として難しい問題である。
近年,DLRM(Deep Learning Recommendation Models)を超えてスケールするために,ジェネレーティブ・レコメンデーション・フレームワークが提案されている。
シーケンシャルトランスダクションタスクとしてのレコメンデーションの改革は、計算の面でのスケーリング特性の改善につながった。
それにもかかわらず、HSTUの著者によって報告された最大のエンコーダ構成は1億7600万のパラメータのみであり、現代の言語モデルに共通する数十億のパラメータよりもかなり小さい。
本研究では,最大10億個のパラメータを持つ大規模トランスフォーマーレコメンデータをトレーニングするためのレシピを提案する。
本研究では,ユーザ履歴における自己回帰学習が,フィードバック予測と次点予測という2つのサブタスクに自然に分解されることを示し,その分解が多種多様なトランスフォーマーサイズにわたって効果的にスケール可能であることを示す。
さらに,提案するアーキテクチャを,数百万のユーザを対象とした大規模音楽プラットフォームに展開することに成功したことを報告する。
オンラインA/Bテストによると、この新しいモデルは総聴取時間を+2.26%増加させ、ユーザーの好みを+6.37%向上させる。
関連論文リスト
- A Novel Mamba-based Sequential Recommendation Method [4.941272356564765]
逐次レコメンデーション(SR)は、次のアクションを予測するためにユーザアクティビティをエンコードする。
トランスフォーマーベースのモデルはシーケンシャルレコメンデーションに有効であることが証明されているが、トランスフォーマーにおける自己アテンションモジュールの複雑さは、シーケンス長と2次にスケールする。
複数の低次元マンバ層と完全連結層を用いる新しいマルチヘッド潜在マンバアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-10T02:43:19Z) - Scaling Sequential Recommendation Models with Transformers [0.0]
我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。
計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。
また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
論文 参考訳(メタデータ) (2024-12-10T15:20:56Z) - Scaling New Frontiers: Insights into Large Recommendation Models [74.77410470984168]
MetaのジェネレーティブレコメンデーションモデルHSTUは、パラメータを数千億に拡張することでレコメンデーションシステムのスケーリング法則を説明している。
我々は、これらのスケーリング法則の起源を探るため、包括的なアブレーション研究を行っている。
大規模なレコメンデーションモデルの今後の方向性に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-12-01T07:27:20Z) - Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations [11.198481792194452]
大規模なレコメンデーションシステムは、毎日数千億のユーザーアクションを扱う必要がある。
何千もの機能を備えた大量のデータでトレーニングされているにも関わらず、業界におけるほとんどのDeep Learning Recommendation Model(DLRM)は、計算処理ではスケールできない。
言語および視覚領域におけるトランスフォーマーの成功に触発され、推奨システムの基本設計選択を再考する。
論文 参考訳(メタデータ) (2024-02-27T02:37:37Z) - DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging [34.643717080240584]
我々はDenseFormerを提案する。DenseFormerは、モデルのサイズを増大させることなく、モデルの難易度を向上する標準アーキテクチャの簡単な修正である。
提案手法は,現在および過去の表現の重み付き平均を計算する,各変圧器ブロックの後の加算平均ステップに依存する。
実験によると、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じ難易度に達する。
論文 参考訳(メタデータ) (2024-02-04T21:44:09Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。