論文の概要: Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin
- arxiv url: http://arxiv.org/abs/2511.06077v1
- Date: Sat, 08 Nov 2025 17:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.743044
- Title: Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin
- Title(参考訳): 10kシーケンスのエンドツーエンドモデリングをDouyinの数十億ドル規模で実現する
- Authors: Lin Guan, Jia-Qi Yang, Zhishan Zhao, Beichuan Zhang, Bo Sun, Xuanyuan Luo, Jinan Ni, Xiaowen Li, Yuhang Qi, Zhifang Fan, Hangyu Wang, Qiwei Chen, Yi Cheng, Feng Zhang, Xiao Yang,
- Abstract要約: Douyinのような短いビデオレコメンデータは、レイテンシやコストの予算を壊さずに、非常に長いユーザー履歴を活用できなければならない。
長大なモデリングを10kの履歴に拡張するエンド・ツー・エンドシステムを提案する。
- 参考スコア(独自算出の注目度): 21.0248704845397
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Short-video recommenders such as Douyin must exploit extremely long user histories without breaking latency or cost budgets. We present an end-to-end system that scales long-sequence modeling to 10k-length histories in production. First, we introduce Stacked Target-to-History Cross Attention (STCA), which replaces history self-attention with stacked cross-attention from the target to the history, reducing complexity from quadratic to linear in sequence length and enabling efficient end-to-end training. Second, we propose Request Level Batching (RLB), a user-centric batching scheme that aggregates multiple targets for the same user/request to share the user-side encoding, substantially lowering sequence-related storage, communication, and compute without changing the learning objective. Third, we design a length-extrapolative training strategy -- train on shorter windows, infer on much longer ones -- so the model generalizes to 10k histories without additional training cost. Across offline and online experiments, we observe predictable, monotonic gains as we scale history length and model capacity, mirroring the scaling law behavior observed in large language models. Deployed at full traffic on Douyin, our system delivers significant improvements on key engagement metrics while meeting production latency, demonstrating a practical path to scaling end-to-end long-sequence recommendation to the 10k regime.
- Abstract(参考訳): Douyinのような短いビデオレコメンデータは、レイテンシやコストの予算を壊さずに、非常に長いユーザー履歴を活用できなければならない。
長周期モデリングを10kの履歴に拡張するエンド・ツー・エンドシステムを提案する。
まず、歴史の自己注意を対象から歴史への積み重ねた横断的注意に置き換え、複雑度を2次から線形に減らし、効率的なエンドツーエンドのトレーニングを可能にするスタック・ターゲット・ツー・ヒストリー・クロス・アテンション(STCA)を導入する。
第二に、ユーザ中心のバッチ方式であるリクエストレベルバッチ(RLB)を提案する。これは、同じユーザ/要求に対して複数のターゲットを集約して、ユーザ側エンコーディングを共有し、学習目標を変更することなく、シーケンス関連のストレージ、通信、計算を大幅に削減する。
第三に、より短いウィンドウでトレーニングし、はるかに長いウィンドウで推測する、長さを計測するトレーニング戦略を設計するので、モデルは追加のトレーニングコストなしで10kの履歴に一般化する。
オフラインおよびオンライン実験を通して、予測可能なモノトニックなゲインを観測し、大きな言語モデルで観察されるスケーリング法則の振る舞いを反映して、履歴の長さとモデル容量をスケールする。
Douyinのフルトラフィックでデプロイされた当社のシステムは,運用遅延を満足する上で,重要なエンゲージメント指標を大幅に改善すると同時に,10k体制にエンドツーエンドのロングシーケンスレコメンデーションをスケールアップする実践的な方法を示す。
関連論文リスト
- Massive Memorization with Hundreds of Trillions of Parameters for Sequential Transducer Generative Recommenders [11.073761978382398]
VISTA(Virtual Sequential Target Attention)と呼ばれる新しい2段階モデリングフレームワークを提案する。
VISTAは、従来のターゲットの注意を候補項目からユーザ履歴項目に分解する。
このアプローチはオフラインおよびオンラインメトリクスの大幅な改善を実現し、業界をリードするレコメンデーションプラットフォームに展開しました。
論文 参考訳(メタデータ) (2025-10-24T22:17:49Z) - Sliding Window Training -- Utilizing Historical Recommender Systems Data for Foundation Models [8.298236989162213]
長寿命のレコメンデータシステム(RecSys)は、長年にわたる長いユーザとイテムのインタラクション履歴に遭遇することが多い。
長期的ユーザの好みを効果的に学習するためには、FM(Large RecSys foundation model)が事前学習時にこの情報をエンコードする必要がある。
モデル入力次元を増大させることなく、トレーニング時間中に長いユーザ履歴シーケンスを組み込むスライディングウィンドウトレーニング手法を導入する。
論文 参考訳(メタデータ) (2024-08-21T18:59:52Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - No Length Left Behind: Enhancing Knowledge Tracing for Modeling
Sequences of Excessive or Insufficient Lengths [3.2687390531088414]
知識追跡は,過去の質問応答行動に基づいて,学生の実践に対する反応を予測することを目的としている。
シーケンスが長くなると、計算コストは指数関数的に増加する。
シーケンス・フレキシブル・ナレッジ・トラクション(SFKT)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T11:30:58Z) - Sparse Attentive Memory Network for Click-through Rate Prediction with
Long Sequences [10.233015715433602]
本稿では,長期的ユーザ行動モデリングのためのスパース注意記憶ネットワークを提案する。
SAMは数千のスケールでユーザ行動シーケンスの効率的なトレーニングとリアルタイム推論をサポートする。
SAMは、世界最大の国際Eコマースプラットフォームのひとつとして成功している。
論文 参考訳(メタデータ) (2022-08-08T10:11:46Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Dynamic Memory based Attention Network for Sequential Recommendation [79.5901228623551]
DMAN(Dynamic Memory-based Attention Network)と呼ばれる新しい連続的推薦モデルを提案する。
長い動作シーケンス全体を一連のサブシーケンスに分割し、モデルをトレーニングし、ユーザの長期的な利益を維持するためにメモリブロックのセットを維持する。
動的メモリに基づいて、ユーザの短期的および長期的関心を明示的に抽出し、組み合わせて効率的な共同推薦を行うことができる。
論文 参考訳(メタデータ) (2021-02-18T11:08:54Z) - Longformer: The Long-Document Transformer [40.18988262517733]
トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
我々はLongformerを導入し、シーケンス長と線形にスケールするアテンション機構を導入し、何千ものトークンの文書を簡単に処理できるようにした。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルなウインドウのアテンションと、グローバルなアテンションを動機付けるタスクを組み合わせたものである。
論文 参考訳(メタデータ) (2020-04-10T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。