論文の概要: RelayGR: Scaling Long-Sequence Generative Recommendation via Cross-Stage Relay-Race Inference
- arxiv url: http://arxiv.org/abs/2601.01712v1
- Date: Mon, 05 Jan 2026 01:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.72132
- Title: RelayGR: Scaling Long-Sequence Generative Recommendation via Cross-Stage Relay-Race Inference
- Title(参考訳): RelayGR: クロスステージ Relay-Race 推論による時系列生成レコメンデーションのスケーリング
- Authors: Jiarui Wang, Huichao Chai, Yuanhang Zhang, Zongjin Zhou, Wei Guo, Xingkun Yang, Qiang Tang, Bo Pan, Jiawei Zhu, Ke Cheng, Yuting Yan, Shulan Wang, Yingjie Zhu, Zhengfan Yuan, Jiaqi Huang, Yuhan Zhang, Xiaosong Sun, Zhinan Zhang, Hong Zhu, Yongsheng Zhang, Tiantian Dong, Zhong Xiao, Deliang Liu, Chengzhou Lu, Yuan Sun, Zhiyuan Chen, Xinming Han, Zaizhu Liu, Yaoyuan Wang, Ziyang Zhang, Yong Liu, Jinxin Xu, Yajing Sun, Zhoujun Yu, Wenting Zhou, Qidong Zhang, Zhengyong Zhang, Zhonghai Gu, Yibo Jin, Yongxiang Feng, Pengfei Zuo,
- Abstract要約: リアルタイムレコメンデータシステムは、厳密なテールレイテンシSLOの下でカスケード(検索、前処理、きめ細かいランキング)を実行する。
本稿では,GRのHBMリレートレース推論を可能にする生産システムであるRelayGRについて述べる。
RelayGRは1.5$times$より長いシーケンスをサポートし、SLO準拠のスループットを最大3.6$times$に改善する。
- 参考スコア(独自算出の注目度): 46.66085102313264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time recommender systems execute multi-stage cascades (retrieval, pre-processing, fine-grained ranking) under strict tail-latency SLOs, leaving only tens of milliseconds for ranking. Generative recommendation (GR) models can improve quality by consuming long user-behavior sequences, but in production their online sequence length is tightly capped by the ranking-stage P99 budget. We observe that the majority of GR tokens encode user behaviors that are independent of the item candidates, suggesting an opportunity to pre-infer a user-behavior prefix once and reuse it during ranking rather than recomputing it on the critical path. Realizing this idea at industrial scale is non-trivial: the prefix cache must survive across multiple pipeline stages before the final ranking instance is determined, the user population implies cache footprints far beyond a single device, and indiscriminate pre-inference would overload shared resources under high QPS. We present RelayGR, a production system that enables in-HBM relay-race inference for GR. RelayGR selectively pre-infers long-term user prefixes, keeps their KV caches resident in HBM over the request lifecycle, and ensures the subsequent ranking can consume them without remote fetches. RelayGR combines three techniques: 1) a sequence-aware trigger that admits only at-risk requests under a bounded cache footprint and pre-inference load, 2) an affinity-aware router that co-locates cache production and consumption by routing both the auxiliary pre-infer signal and the ranking request to the same instance, and 3) a memory-aware expander that uses server-local DRAM to capture short-term cross-request reuse while avoiding redundant reloads. We implement RelayGR on Huawei Ascend NPUs and evaluate it with real queries. Under a fixed P99 SLO, RelayGR supports up to 1.5$\times$ longer sequences and improves SLO-compliant throughput by up to 3.6$\times$.
- Abstract(参考訳): リアルタイムレコメンデータシステムは、厳密なテールレイテンシSLOの下でマルチステージカスケード(検索、前処理、きめ細かいランキング)を実行し、ランキングには数ミリ秒しか残らない。
ジェネレーティブレコメンデーション(GR)モデルは、長いユーザビヘイビアシーケンスを消費することで品質を向上させることができるが、プロダクションでは、オンラインシーケンスの長さは、ランキングステージのP99予算によって厳しく制限される。
GRトークンの大部分が項目候補に依存しないユーザ動作を符号化しており、重要な経路で再計算するのではなく、ユーザビヘイビアプレフィックスを一度プレインジェクトし、ランキング中に再利用する機会を示唆している。
プレフィックスキャッシュは最終ランキングインスタンスが決定される前に、複数のパイプラインステージにわたって存続しなければなりません。ユーザ人口は、キャッシュフットプリントを単一のデバイスよりもはるかに多く含み、非差別的なプレ推論は、高いQPSの下で共有リソースをオーバーロードします。
本稿では,GRのHBMリレートレース推論を可能にする生産システムであるRelayGRについて述べる。
RelayGRは、長期のユーザプレフィックスを選択的にプレ推論し、リクエストライフサイクルを通じてHBMにKVキャッシュを常駐させ、その後のランキングがリモートフェッチなしで使用できるようにする。
RelayGRは3つのテクニックを組み合わせています。
1) 制限付きキャッシュフットプリントとプレ推論ロードの下で、オンリスク要求のみを許容するシーケンス対応トリガ。
2 補助プリインファー信号とランキング要求の両方を同一のインスタンスにルーティングすることにより、キャッシュ生産及び消費を共用する親和性対応ルータ
3) サーバローカルDRAMを使用して、冗長な再ロードを回避しつつ、短期的なクロスリクエストの再利用をキャプチャするメモリ対応拡張器。
我々はHuawei Ascend NPU上でRelayGRを実装し、実際のクエリで評価する。
固定されたP99 SLOの下では、RelayGRは1.5$\times$より長いシーケンスをサポートし、SLO準拠のスループットを最大3.6$\times$に改善する。
関連論文リスト
- SRAS: A Lightweight Reinforcement Learning-based Document Selector for Edge-Native RAG Pipelines [0.0]
本稿では、RL(Regress Learning)を用いて学習した軽量文書セレクタであるSRAS(Sparse Reward-Aware Selector)を提案する。
SRASは、PPO(Proximal Policy Optimization)を用いてコンパクトな(0.76MB)ポリシーを学び、Relaxed F1とBERTScoreを組み合わせたハイブリッド報酬信号で導かれる。
この研究は、RLベースのドキュメント選択が超軽量でレイテンシを認識し、オンデバイスRAGパイプラインに有効であることを示す最初のものである。
論文 参考訳(メタデータ) (2026-01-05T04:39:31Z) - xGR: Efficient Generative Recommendation Serving at Scale [19.770951650969973]
高速シナリオ下での厳密な低レイテンシ要求を満たすGR指向サービスシステムであるxGRを提案する。
xGRは、ステージ化されたKVキャッシュと分離されたKVキャッシュを通じて、プリフィルとデコードフェーズの処理を統合する。
実世界のレコメンデーションサービスデータセットによる実験では、xGRは最先端のベースラインと比較して少なくとも3.49倍のスループットを実現している。
論文 参考訳(メタデータ) (2025-12-12T12:59:38Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - Self-Gated Memory Recurrent Network for Efficient Scalable HDR
Deghosting [59.04604001936661]
本稿では,任意の長さの動的シーケンスを浮き彫りにする新しいネットワーク型HDRデゴースト法を提案する。
本稿では,SGM(Self-Gated Memory)セルという新たなリカレントセルアーキテクチャを導入する。
提案手法は,既存の3つの公開データセットを定量的に比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-24T12:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。