論文の概要: Efficient Inference for Large Language Model-based Generative Recommendation
- arxiv url: http://arxiv.org/abs/2410.05165v2
- Date: Tue, 8 Oct 2024 13:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:58:57.664019
- Title: Efficient Inference for Large Language Model-based Generative Recommendation
- Title(参考訳): 大規模言語モデルに基づく生成レコメンデーションのための効率的な推論
- Authors: Xinyu Lin, Chaoqun Yang, Wenjie Wang, Yongqi Li, Cunxiao Du, Fuli Feng, See-Kiong Ng, Tat-Seng Chua,
- Abstract要約: LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 78.38878421030522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based generative recommendation has achieved notable success, yet its practical deployment is costly particularly due to excessive inference latency caused by autoregressive decoding. For lossless LLM decoding acceleration, Speculative Decoding (SD) has emerged as a promising solution. However, applying SD to generative recommendation presents unique challenges due to the requirement of generating top-K items (i.e., K distinct token sequences) as a recommendation list by beam search. This leads to more stringent verification in SD, where all the top-K sequences from the target LLM must be successfully drafted by the draft model at each decoding step. To alleviate this, we consider 1) boosting top-K sequence alignment between the draft model and the target LLM, and 2) relaxing the verification strategy to reduce trivial LLM calls. To this end, we propose an alignment framework named AtSpeed, which presents the AtSpeed-S optimization objective for top-K alignment under the strict top-K verification. Moreover, we introduce a relaxed sampling verification strategy that allows high-probability non-top-K drafted sequences to be accepted, significantly reducing LLM calls. Correspondingly, we propose AtSpeed-R for top-K alignment under this relaxed sampling verification. Empirical results on two real-world datasets demonstrate that AtSpeed significantly accelerates LLM-based generative recommendation, e.g., near 2x speedup under strict top-K verification and up to 2.5 speedup under relaxed sampling verification. The codes and datasets will be released in the near future.
- Abstract(参考訳): LLM(Large Language Model)ベースのジェネレーティブレコメンデーションは目覚ましい成功を収めている。
損失のないLLM復号化高速化のために、投機的復号化(SD)が有望な解決策として登場した。
しかし、ジェネレーティブレコメンデーションにSDを適用することは、ビームサーチによるレコメンデーションリストとしてトップKアイテム(K個の異なるトークンシーケンス)を生成する必要があるため、ユニークな課題を示す。
これによりSDのより厳密な検証が可能となり、ターゲットのLSMからのトップKシーケンスはすべて、デコードステップ毎にドラフトモデルによってドラフト化されなければならない。
これを緩和するために、我々は考える
1) ドラフトモデルと目標LLM間のトップK配列アライメントの促進
2) 自明なLCM呼び出しを減らすため, 検証戦略を緩和する。
そこで我々は,厳密なトップK検証の下で,トップKアライメントのためのAtSpeed-S最適化目標を示す,AtSpeedというアライメントフレームワークを提案する。
さらに,LLM呼び出しを著しく削減し,高確率な非トップKドラフトシーケンスを受理可能なサンプリング検証戦略を導入する。
この緩和サンプリング検証の下で,トップKアライメントのためのAtSpeed-Rを提案する。
2つの実世界のデータセットに対する実験結果から、AtSpeedは厳密なトップK検証では2倍近く、緩やかなサンプリング検証では2.5倍近く、LCMベースの生成レコメンデーションを著しく加速することが示された。
コードとデータセットは近い将来リリースされる予定だ。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [47.5772915135952]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文 参考訳(メタデータ) (2024-06-17T11:05:15Z) - Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling [40.535672813968375]
大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。
我々は、GCGの時間コストを削減するために$ttexttProbe sample$という新しいアルゴリズムを研究している。
プローブサンプリングは、他のプロンプト最適化手法や逆法を高速化することも可能である。
論文 参考訳(メタデータ) (2024-03-02T16:23:44Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。