論文の概要: Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers
- arxiv url: http://arxiv.org/abs/2508.04711v2
- Date: Sat, 16 Aug 2025 00:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.209309
- Title: Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers
- Title(参考訳): 階層型シークエンシャルトランスデューサにおけるコンテキスト並列性を用いた生成的レコメンデーションのスケーリング
- Authors: Yue Dong, Han Li, Shen Li, Nikhil Patel, Xing Liu, Xiaodong Wang, Chuanhao Zhuge,
- Abstract要約: 本稿では,HSTUアテンションに対するジャグテンソルサポートによるコンテキスト並列化を導入し,シーケンス次元のスケールアップのための基礎的機能を確立する。
提案手法により,分散データ並列処理(DDP)と組み合わせることで,ユーザインタラクションのシーケンス長が5.3倍向上し,スケーリング係数が1.55倍になる。
- 参考スコア(独自算出の注目度): 29.05624030090006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale recommendation systems are pivotal to process an immense volume of daily user interactions, requiring the effective modeling of high cardinality and heterogeneous features to ensure accurate predictions. In prior work, we introduced Hierarchical Sequential Transducers (HSTU), an attention-based architecture for modeling high cardinality, non-stationary streaming recommendation data, providing good scaling law in the generative recommender framework (GR). Recent studies and experiments demonstrate that attending to longer user history sequences yields significant metric improvements. However, scaling sequence length is activation-heavy, necessitating parallelism solutions to effectively shard activation memory. In transformer-based LLMs, context parallelism (CP) is a commonly used technique that distributes computation along the sequence-length dimension across multiple GPUs, effectively reducing memory usage from attention activations. In contrast, production ranking models typically utilize jagged input tensors to represent user interaction features, introducing unique CP implementation challenges. In this work, we introduce context parallelism with jagged tensor support for HSTU attention, establishing foundational capabilities for scaling up sequence dimensions. Our approach enables a 5.3x increase in supported user interaction sequence length, while achieving a 1.55x scaling factor when combined with Distributed Data Parallelism (DDP).
- Abstract(参考訳): 大規模なレコメンデーションシステムは、膨大な量の日々のユーザインタラクションを処理するために重要であり、正確な予測を保証するために、高濃度と不均一な機能の効果的なモデリングが必要である。
先行研究では,高濃度の非定常ストリーミングレコメンデーションデータをモデリングするためのアテンションベースアーキテクチャであるHierarchical Sequential Transducers (HSTU)を導入し,生成レコメンデーションフレームワーク(GR)において優れたスケーリング法則を提供する。
最近の研究や実験により、長いユーザ履歴シーケンスへの参加は、重要なメートル法の改善をもたらすことが示されている。
しかし、スケーリングシーケンス長はアクティベーションが重いため、効果的にシャードなアクティベーションメモリを必要とする。
コンテクスト並列性(コンテクスト並列性、英: context parallelism、CP)は、複数のGPUにまたがる列長次元に沿った計算を分散する手法である。
対照的に、プロダクションランキングモデルは、通常、ユーザインタラクションの特徴を表現するために、タグ付き入力テンソルを使用し、独自のCP実装の課題を提起する。
本研究は,HSTUの注意を引くジャグテンソルサポートを備えたコンテキスト並列性を導入し,シーケンス次元をスケールアップする基礎的能力を確立する。
提案手法では,分散データ並列処理(DDP)と組み合わせることで,ユーザインタラクションのシーケンス長が5.3倍,スケーリング係数が1.55倍に向上する。
関連論文リスト
- Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - A Novel Mamba-based Sequential Recommendation Method [4.941272356564765]
逐次レコメンデーション(SR)は、次のアクションを予測するためにユーザアクティビティをエンコードする。
トランスフォーマーベースのモデルはシーケンシャルレコメンデーションに有効であることが証明されているが、トランスフォーマーにおける自己アテンションモジュールの複雑さは、シーケンス長と2次にスケールする。
複数の低次元マンバ層と完全連結層を用いる新しいマルチヘッド潜在マンバアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-10T02:43:19Z) - Tensor Product Attention Is All You Need [53.69820973900921]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文 参考訳(メタデータ) (2024-12-04T11:05:01Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - ELASTIC: Efficient Linear Attention for Sequential Interest Compression [5.689306819772134]
最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。
逐次的関心圧縮のための効率的な線形注意法であるELASTICを提案する。
我々は、様々な公開データセットに関する広範な実験を行い、それをいくつかの強力なシーケンシャルなレコメンデータと比較する。
論文 参考訳(メタデータ) (2024-08-18T06:41:46Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。