Fugu-MT 論文翻訳(概要): Efficient Inference for Large Language Model-based Generative Recommendation

論文の概要: Efficient Inference for Large Language Model-based Generative Recommendation

arxiv url: http://arxiv.org/abs/2410.05165v1
Date: Tue, 8 Oct 2024 13:33:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 23:58:57.668007
Title: Efficient Inference for Large Language Model-based Generative Recommendation
Title（参考訳）: 大規模言語モデルに基づく生成レコメンデーションのための効率的な推論
Authors: Xinyu Lin, Chaoqun Yang, Wenjie Wang, Yongqi Li, Cunxiao Du, Fuli Feng, See-Kiong Ng, Tat-Seng Chua,
Abstract要約: LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
参考スコア（独自算出の注目度）: 78.38878421030522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model (LLM)-based generative recommendation has achieved notable success, yet its practical deployment is costly particularly due to excessive inference latency caused by autoregressive decoding. For lossless LLM decoding acceleration, Speculative Decoding (SD) has emerged as a promising solution. However, applying SD to generative recommendation presents unique challenges due to the requirement of generating top-K items (i.e., K distinct token sequences) as a recommendation list by beam search. This leads to more stringent verification in SD, where all the top-K sequences from the target LLM must be successfully drafted by the draft model at each decoding step. To alleviate this, we consider 1) boosting top-K sequence alignment between the draft model and the target LLM, and 2) relaxing the verification strategy to reduce trivial LLM calls. To this end, we propose an alignment framework named AtSpeed, which presents the AtSpeed-S optimization objective for top-K alignment under the strict top-K verification. Moreover, we introduce a relaxed sampling verification strategy that allows high-probability non-top-K drafted sequences to be accepted, significantly reducing LLM calls. Correspondingly, we propose AtSpeed-R for top-K alignment under this relaxed sampling verification. Empirical results on two real-world datasets demonstrate that AtSpeed significantly accelerates LLM-based generative recommendation, e.g., near 2x speedup under strict top-K verification and up to 2.5 speedup under relaxed sampling verification. The codes and datasets will be released in the near future.
Abstract（参考訳）: LLM(Large Language Model)ベースのジェネレーティブレコメンデーションは目覚ましい成功を収めている。損失のないLLM復号化高速化のために、投機的復号化(SD)が有望な解決策として登場した。しかし、ジェネレーティブレコメンデーションにSDを適用することは、ビームサーチによるレコメンデーションリストとしてトップKアイテム(K個の異なるトークンシーケンス)を生成する必要があるため、ユニークな課題を示す。これによりSDのより厳密な検証が可能となり、ターゲットのLSMからのトップKシーケンスはすべて、デコードステップ毎にドラフトモデルによってドラフト化されなければならない。これを緩和するために、我々は考える 1) ドラフトモデルと目標LLM間のトップK配列アライメントの促進 2) 自明なLCM呼び出しを減らすため, 検証戦略を緩和する。そこで我々は,厳密なトップK検証の下で,トップKアライメントのためのAtSpeed-S最適化目標を示す,AtSpeedというアライメントフレームワークを提案する。さらに,LLM呼び出しを著しく削減し,高確率な非トップKドラフトシーケンスを受理可能なサンプリング検証戦略を導入する。この緩和サンプリング検証の下で,トップKアライメントのためのAtSpeed-Rを提案する。 2つの実世界のデータセットに対する実験結果から、AtSpeedは厳密なトップK検証では2倍近く、緩やかなサンプリング検証では2.5倍近く、LCMベースの生成レコメンデーションを著しく加速することが示された。コードとデータセットは近い将来リリースされる予定だ。

関連論文リスト

$\ abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。 $nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文参考訳（メタデータ） (2026-03-05T08:42:54Z)
Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文参考訳（メタデータ） (2025-10-20T23:38:12Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens [47.60523011706102]
大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
論文参考訳（メタデータ） (2025-07-01T12:42:06Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Tutorial Proposal: Speculative Decoding for Efficient LLM Inference [13.711626189861313]
投機的復号法(SD: Speculative Decoding)は、LLM推論高速化のための高度な手法である。このチュートリアルでは、ドラフトモデルアーキテクチャや検証戦略など、SDの最新技術について詳しく説明している。
論文参考訳（メタデータ） (2025-03-01T13:34:42Z)
Speeding up Speculative Decoding via Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。本稿では,SPRINTERの理論解析を行い,生成したトークンの統計的特性と遅延の低減について検討する。
論文参考訳（メタデータ） (2025-02-06T23:10:53Z)
Constrained Decoding with Speculative Lookaheads [13.085794785286305]
我々は投機的ルックアヘッド(CSL)を用いた制約付き復号法を提案する。 CSLは、最近提案された投機的復号化のアイデアによって動機付けられている。 3つのLLMファミリーを持つ2つの制約デコードタスクにおけるCDSLの評価を行い、CDLHの2.2倍から12.15倍の高速化を実現した。
論文参考訳（メタデータ） (2024-12-09T22:29:57Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。 DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [47.5772915135952]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文参考訳（メタデータ） (2024-06-17T11:05:15Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling [40.535672813968375]
大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。我々は、GCGの時間コストを削減するために$ttexttProbe sample$という新しいアルゴリズムを研究している。プローブサンプリングは、他のプロンプト最適化手法や逆法を高速化することも可能である。
論文参考訳（メタデータ） (2024-03-02T16:23:44Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文参考訳（メタデータ） (2024-01-11T09:49:15Z)
Contrastive Proposal Extension with LSTM Network for Weakly Supervised Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。 PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文参考訳（メタデータ） (2021-10-14T16:31:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。