論文の概要: Towards Generalizable and Efficient Large-Scale Generative Recommenders
- arxiv url: http://arxiv.org/abs/2605.23312v1
- Date: Fri, 22 May 2026 07:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.239279
- Title: Towards Generalizable and Efficient Large-Scale Generative Recommenders
- Title(参考訳): 汎用的で効率的な大規模生成レコメンダを目指して
- Authors: Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya,
- Abstract要約: 生成レコメンデーションモデルは、ユーザの振る舞いをイベントのシーケンスとしてモデル化し、複数のレコメンデーションタスクのための共有バックボーンを提供する。
本稿では,2Mから1Bのバックボーンパラメータへの生成レコメンデータのスケーリング経験について述べる。
全体としては,タスクのヘッダー,デコードコスト,サービスレイテンシのアライメント,アイテムの一般化とともに,モデルスケールを生産移行問題の1つのコンポーネントとして扱うことを支援する。
- 参考スコア(独自算出の注目度): 5.085303286789844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation models can model user behavior as sequences of events and provide a shared backbone for multiple recommendation tasks. In production, however, pre-training gains do not automatically translate into downstream application improvements: task headroom, repeated-training cost, serving latency, and item freshness all affect transfer. We describe our experience scaling a generative recommender from 2M to 1B backbone parameters, excluding embedding and decoding layers, in a production-scale title recommendation setting. Across multiple downstream tasks, we observe task-dependent scaling behavior: some tasks approach an empirical ceiling within the observed scale range, while others continue to benefit from additional capacity. This motivates using offset scaling-law fits as a diagnostic for where additional model scale may be more or less useful. We then study production constraints that arise when applying the model in practice. Frequent retraining over trillions of behavior tokens makes training and decoding efficiency important; cached serving can make the immediate next-token target stale; and newly launched titles may need to be scored from semantic metadata before collaborative ID embeddings are reliable. We address these issues with multi-token prediction for serving-latency alignment, sampled softmax and a projected decoding head for efficient repeated training, and semantic item towers with collaborative-embedding masking for cold-start adaptation. In a one-week production-shadow evaluation over 1M users, the 1B-backbone model achieves higher MRR than the 2M-backbone baseline across all reported tasks. Overall, the results support treating model scale as one component of a production transfer problem, alongside task headroom, decoding cost, serving-latency alignment, and item generalization.
- Abstract(参考訳): 生成レコメンデーションモデルは、ユーザの振る舞いをイベントのシーケンスとしてモデル化し、複数のレコメンデーションタスクのための共有バックボーンを提供する。
しかし本番環境では、事前トレーニングのゲインが自動的にダウンストリームアプリケーションの改善に変換されない。
本稿では,2Mから1Bのバックボーンパラメータへの生成レコメンデータのスケーリング経験について述べる。
いくつかのタスクは、観測範囲内の経験的な天井に近づき、他のタスクは追加の能力の恩恵を受け続ける。
これにより、オフセットスケーリング法則を用いることで、追加のモデルスケールが多かれ少なかれ有用である可能性のある診断に適合する。
次に、実際にモデルを適用する際に生じる生産制約について研究する。
数兆の振る舞いトークンを頻繁に再トレーニングすることで、トレーニングと復号化の効率が重要になる。キャッシュされたサービスによって、すぐに次の目標に到達でき、新しくローンチされたタイトルは、コラボレーティブIDの埋め込みが信頼できる前にセマンティックメタデータから取得する必要がある。
これらの課題に対処するためには、サービスレイテンシアライメントのためのマルチトークン予測、効率的な繰り返しトレーニングのためのサンプルソフトマックスとプロジェクションデコードヘッド、コールドスタート適応のための協調埋め込みマスキングを用いたセマンティックアイテムタワー、といった課題に対処する。
100万ユーザに対する1週間のプロダクションシャドウ評価では、1Bバックボーンモデルは、報告されたすべてのタスクの2Mバックボーンベースラインよりも高いMRRを達成する。
全体としては,タスクのヘッダー,デコードコスト,サービスレイテンシのアライメント,アイテムの一般化とともに,モデルスケールを生産移行問題の1つのコンポーネントとして扱うことを支援する。
関連論文リスト
- GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation [14.663434490160016]
我々は、JD App上にデプロイされた嗜好指向の生成フレームワークであるGenRecを紹介する。
月のオンラインA/Bテストでは、GenRecは9.5%のクリック数の改善と8.7%のトランザクション数を達成した。
論文 参考訳(メタデータ) (2026-04-16T11:07:05Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T11:02:05Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。