論文の概要: xGR: Efficient Generative Recommendation Serving at Scale
- arxiv url: http://arxiv.org/abs/2512.11529v2
- Date: Fri, 19 Dec 2025 11:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 13:33:13.338222
- Title: xGR: Efficient Generative Recommendation Serving at Scale
- Title(参考訳): xGR: スケールでの効率的なジェネレーティブレコメンデーション
- Authors: Qingxiao Sun, Tongxuan Liu, Shen Zhang, Siyu Wu, Peijun Yang, Haotian Liang, Menxin Li, Xiaolong Ma, Zhiwei Liang, Ziyi Ren, Minchao Zhang, Xinyu Liu, Ke Zhang, Depei Qian, Hailong Yang,
- Abstract要約: 高速シナリオ下での厳密な低レイテンシ要求を満たすGR指向サービスシステムであるxGRを提案する。
xGRは、ステージ化されたKVキャッシュと分離されたKVキャッシュを通じて、プリフィルとデコードフェーズの処理を統合する。
実世界のレコメンデーションサービスデータセットによる実験では、xGRは最先端のベースラインと比較して少なくとも3.49倍のスループットを実現している。
- 参考スコア(独自算出の注目度): 19.770951650969973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommendation system delivers substantial economic benefits by providing personalized predictions. Generative recommendation (GR) integrates LLMs to enhance the understanding of long user-item sequences. Despite employing attention-based architectures, GR's workload differs markedly from that of LLM serving. GR typically processes long prompt while producing short, fixed-length outputs, yet the computational cost of each decode phase is especially high due to the large beam width. In addition, since the beam search involves a vast item space, the sorting overhead becomes particularly time-consuming. We propose xGR, a GR-oriented serving system that meets strict low-latency requirements under highconcurrency scenarios. First, xGR unifies the processing of prefill and decode phases through staged computation and separated KV cache. Second, xGR enables early sorting termination and mask-based item filtering with data structure reuse. Third, xGR reconstructs the overall pipeline to exploit multilevel overlap and multi-stream parallelism. Our experiments with real-world recommendation service datasets demonstrate that xGR achieves at least 3.49x throughput compared to the state-of-the-art baseline under strict latency constraints.
- Abstract(参考訳): レコメンデーションシステムは、パーソナライズされた予測を提供することによって、かなりの経済的利益をもたらす。
ジェネレーティブ・レコメンデーション(GR)はLLMを統合し、長いユーザ・イテムシーケンスの理解を深める。
注意に基づくアーキテクチャを採用するが、GRのワークロードはLLMのサービスと大きく異なる。
GRは通常、短い固定長の出力を生成しながら、長いプロンプトを処理するが、大きなビーム幅のため、各デコードフェーズの計算コストは特に高い。
さらに、ビームサーチには広大なアイテムスペースが伴うため、ソートオーバーヘッドは特に時間を要する。
高速シナリオ下での厳密な低レイテンシ要求を満たすGR指向サービスシステムであるxGRを提案する。
まず、xGRはステージ計算と分離されたKVキャッシュを通じて、プリフィルとデコードフェーズの処理を統一する。
第2に、xGRはデータ構造再利用による早期ソート終了とマスクベースのアイテムフィルタリングを可能にする。
第3に、xGRはパイプライン全体を再構築して、マルチレベルオーバーラップとマルチストリーム並列性を活用する。
実世界のレコメンデーションサービスデータセットを用いた実験では、厳密なレイテンシ制約下での最先端のベースラインと比較して、xGRが少なくとも3.49倍のスループットを達成することが示された。
関連論文リスト
- ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文 参考訳(メタデータ) (2025-10-12T03:04:24Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG [45.319085406042966]
マルチスケール適応コンテキストRAG(英: Multi-scale Adaptive Context RAG)は、文書を粗い粒度に圧縮して分割する階層的なRAGフレームワークである。
MacRAGは効率的なクエリ固有長コンテキストを構築し、精度とカバレッジの両方を最適化する。
本研究は,MacRAGを実世界の長文マルチホップ推論のための効率的でスケーラブルなソリューションとして確立した。
論文 参考訳(メタデータ) (2025-05-10T08:50:44Z) - VectorLiteRAG: Latency-Aware and Fine-Grained Resource Partitioning for Efficient RAG [2.0929459605817193]
Retrieval-Augmented Generation (RAG) システムは、ベクトル類似性探索と大言語モデル(LLM)を組み合わせてコンテキスト対応の応答を提供する。
本稿では,VectorLiteRAGを提案する。VectorLiteRAGは,追加のハードウェアリソースを必要とせず,遅延に順応する推論を実現する。
論文 参考訳(メタデータ) (2025-04-11T19:18:41Z) - RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。
提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-11T09:04:50Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。