論文の概要: Semi-Clairvoyant Scheduling of Speculative Decoding Requests to Minimize LLM Inference Latency
- arxiv url: http://arxiv.org/abs/2505.17074v1
- Date: Tue, 20 May 2025 04:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.528531
- Title: Semi-Clairvoyant Scheduling of Speculative Decoding Requests to Minimize LLM Inference Latency
- Title(参考訳): LLM推論遅延最小化のための投機的復号要求の半透視的スケジューリング
- Authors: Ruixiao Li, Fahao Chen, Peng Li,
- Abstract要約: 本稿では,LAPS-SD(Least-Attained/Perceived-Service for Speculative Decoding)と呼ばれる半クレアボイト要求スケジューリングアルゴリズムを提案する。
LAPS-SDは、デコーディング中に、要求を特徴に応じて適応的にスケジューリングすることで、平均推論遅延を効果的に最小化することができる。
LAPS-SDは、最先端のスケジューリング手法と比較して、推論遅延を約39%削減する。
- 参考スコア(独自算出の注目度): 4.372762934308627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates Large Language Model (LLM) inference by employing a small speculative model (SSM) to generate multiple candidate tokens and verify them using the LLM in parallel. This technique has been widely integrated into LLM inference serving systems. However, inference requests typically exhibit uncertain execution time, which poses a significant challenge of efficiently scheduling requests in these systems. Existing work estimates execution time based solely on predicted output length, which could be inaccurate because execution time depends on both output length and token acceptance rate of verification by the LLM. In this paper, we propose a semi-clairvoyant request scheduling algorithm called Least-Attained/Perceived-Service for Speculative Decoding (LAPS-SD). Given a number of inference requests, LAPS-SD can effectively minimize average inference latency by adaptively scheduling requests according to their features during decoding. When the token acceptance rate is dynamic and execution time is difficult to estimate, LAPS-SD maintains multiple priority queues and allows request execution preemption across different queues. Once the token acceptance rate becomes stable, LAPS-SD can accurately estimate the execution time and schedule requests accordingly. Extensive experiments show that LAPS-SD reduces inference latency by approximately 39\% compared to state-of-the-art scheduling methods.
- Abstract(参考訳): 投機的復号化は、小さな投機的モデル(SSM)を用いてLLM(Large Language Model)推論を加速し、複数の候補トークンを生成し、LLMを並列に検証する。
この手法はLLM推論サービスシステムに広く組み込まれている。
しかし、推論要求は一般的に不確実な実行時間を示すため、これらのシステムでの要求を効率的にスケジューリングするという大きな課題が生じる。
既存の作業は、予測出力長のみに基づいて実行時間を推定するが、実行時間は、LCMによる検証の出力長とトークンの受け入れ率の両方に依存するため、不正確な可能性がある。
本稿では,Last-Attained/Perceived-Service for Speculative Decoding (LAPS-SD)と呼ばれる半クレアボイト要求スケジューリングアルゴリズムを提案する。
LAPS-SDは、多数の推論要求が与えられた場合、デコード中に要求に応じて適応的に要求をスケジューリングすることで、平均推論遅延を効果的に最小化することができる。
トークンの受け入れ率が動的で実行時間の推定が難しい場合、LAPS-SDは複数の優先度キューを保持し、異なるキュー間で要求実行プリエンプションを可能にする。
トークン受入率が安定すると、LAPS-SDはそれに応じて実行時間とスケジュール要求を正確に推定することができる。
LAPS-SDは、最先端のスケジューリング手法と比較して、推論遅延を約39倍削減する。
関連論文リスト
- Speeding up Speculative Decoding via Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。
本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。
本稿では,SPRINTERの理論解析を行い,生成したトークンの統計的特性と遅延の低減について検討する。
論文 参考訳(メタデータ) (2025-02-06T23:10:53Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Don't Stop Me Now: Embedding Based Scheduling for LLMs [22.099820814682513]
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
論文 参考訳(メタデータ) (2024-10-01T19:51:07Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。