論文の概要: Massive Memorization with Hundreds of Trillions of Parameters for Sequential Transducer Generative Recommenders
- arxiv url: http://arxiv.org/abs/2510.22049v1
- Date: Fri, 24 Oct 2025 22:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.800133
- Title: Massive Memorization with Hundreds of Trillions of Parameters for Sequential Transducer Generative Recommenders
- Title(参考訳): シークエンシャルトランスデューサ生成レコメンダのための数百のパラメータによる大量記憶
- Authors: Zhimin Chen, Chenyu Zhao, Ka Chun Mo, Yunjiang Jiang, Jane H. Lee, Shouwei Chen, Khushhall Chandra Mahajan, Ning Jiang, Kai Ren, Jinhui Li, Wen-Yun Yang,
- Abstract要約: VISTA(Virtual Sequential Target Attention)と呼ばれる新しい2段階モデリングフレームワークを提案する。
VISTAは、従来のターゲットの注意を候補項目からユーザ履歴項目に分解する。
このアプローチはオフラインおよびオンラインメトリクスの大幅な改善を実現し、業界をリードするレコメンデーションプラットフォームに展開しました。
- 参考スコア(独自算出の注目度): 11.073761978382398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern large-scale recommendation systems rely heavily on user interaction history sequences to enhance the model performance. The advent of large language models and sequential modeling techniques, particularly transformer-like architectures, has led to significant advancements recently (e.g., HSTU, SIM, and TWIN models). While scaling to ultra-long user histories (10k to 100k items) generally improves model performance, it also creates significant challenges on latency, queries per second (QPS) and GPU cost in industry-scale recommendation systems. Existing models do not adequately address these industrial scalability issues. In this paper, we propose a novel two-stage modeling framework, namely VIrtual Sequential Target Attention (VISTA), which decomposes traditional target attention from a candidate item to user history items into two distinct stages: (1) user history summarization into a few hundred tokens; followed by (2) candidate item attention to those tokens. These summarization token embeddings are then cached in storage system and then utilized as sequence features for downstream model training and inference. This novel design for scalability enables VISTA to scale to lifelong user histories (up to one million items) while keeping downstream training and inference costs fixed, which is essential in industry. Our approach achieves significant improvements in offline and online metrics and has been successfully deployed on an industry leading recommendation platform serving billions of users.
- Abstract(参考訳): 現代の大規模レコメンデーションシステムは、モデルの性能を高めるためにユーザーインタラクション履歴シーケンスに大きく依存している。
大規模な言語モデルとシーケンシャルなモデリング技術、特にトランスフォーマーのようなアーキテクチャの出現は、近年大きな進歩をもたらした(例えば、HSTU、SIM、TWINモデル)。
超長期のユーザ履歴(10kから100k項目)へのスケーリングは、一般的にモデルパフォーマンスを改善するが、業界規模のレコメンデーションシステムでは、レイテンシ、秒間クエリ(QPS)、GPUコストに関する大きな課題も生じている。
既存のモデルは、これらの工業的スケーラビリティの問題に適切に対処しない。
本稿では,VISTA(Virtual Sequential Target Attention)と呼ばれる新たな2段階モデリングフレームワークを提案する。
これらの要約トークンの埋め込みはストレージシステムにキャッシュされ、下流モデルのトレーニングと推論のシーケンス機能として利用される。
このスケーラビリティのための新しい設計により、VISTAは、ダウンストリームトレーニングと推論コストを固定しつつ、生涯にわたるユーザ履歴(最大100万項目まで)にスケールすることができる。
このアプローチは、オフラインおよびオンラインメトリクスの大幅な改善を実現し、数十億のユーザにサービスを提供する業界をリードするレコメンデーションプラットフォームに展開しました。
関連論文リスト
- Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - PinFM: Foundation Model for User Activity Sequences at a Billion-scale Visual Discovery Platform [9.628316811614566]
我々は、数十億の視覚的発見プラットフォームにおいて、複数のアプリケーションにわたるユーザアクティビティシーケンスを理解するための基礎モデル、PinFMを提案する。
我々は、広範囲なユーザアクティビティデータを使用して20B以上のパラメータでトランスフォーマーモデルを事前訓練し、特定のアプリケーションに対して微調整する。
Deduplicated Cross-Attention Transformer (DCAT)のようなインフラストラクチャとアルゴリズムの最適化により、Pinterest上でのスループットが600%向上しました。
論文 参考訳(メタデータ) (2025-07-17T00:37:59Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Scaling Sequential Recommendation Models with Transformers [0.0]
我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。
計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。
また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
論文 参考訳(メタデータ) (2024-12-10T15:20:56Z) - Scaling New Frontiers: Insights into Large Recommendation Models [74.77410470984168]
MetaのジェネレーティブレコメンデーションモデルHSTUは、パラメータを数千億に拡張することでレコメンデーションシステムのスケーリング法則を説明している。
我々は、これらのスケーリング法則の起源を探るため、包括的なアブレーション研究を行っている。
大規模なレコメンデーションモデルの今後の方向性に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-12-01T07:27:20Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - PreSizE: Predicting Size in E-Commerce using Transformers [76.33790223551074]
PreSizEは、Transformerを使って正確なサイズ予測を行う新しいディープラーニングフレームワークである。
我々は,PreSizEが従来の最先端のベースラインよりも優れた予測性能を実現できることを示した。
概念実証として、PreSizEによるサイズ予測が、既存の生産推奨システムに統合できることを実証しています。
論文 参考訳(メタデータ) (2021-05-04T15:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。