論文の概要: Optimizing Speculative Decoding for Serving Large Language Models Using Goodput
- arxiv url: http://arxiv.org/abs/2406.14066v1
- Date: Thu, 20 Jun 2024 07:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:00:17.603169
- Title: Optimizing Speculative Decoding for Serving Large Language Models Using Goodput
- Title(参考訳): グッドプットを用いた大規模言語モデル実行のための投機的デコーディングの最適化
- Authors: Xiaoxuan Liu, Cade Daniel, Langxiang Hu, Woosuk Kwon, Zhuohan Li, Xiangxi Mo, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang,
- Abstract要約: 投機的復号化は、大規模言語モデルにおいて最も効果的な手法の1つである。
要求毎に最適な投機期間を決定するための動的フレームワークであるSmartSpecを開発した。
SmartSpecは、非投機的復号化ベースラインに比べて平均要求遅延を最大3.2倍まで減少させる。
- 参考スコア(独自算出の注目度): 32.479057822334354
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reducing the inference latency of large language models (LLMs) is crucial, and speculative decoding (SD) stands out as one of the most effective techniques. Rather than letting the LLM generate all tokens directly, speculative decoding employs effective proxies to predict potential outputs, which are then verified by the LLM without compromising the generation quality. Yet, deploying SD in real online LLM serving systems (with continuous batching) does not always yield improvement -- under higher request rates or low speculation accuracy, it paradoxically increases latency. Furthermore, there is no best speculation length work for all workloads under different system loads. Based on the observations, we develop a dynamic framework SmartSpec. SmartSpec dynamically determines the best speculation length for each request (from 0, i.e., no speculation, to many tokens) -- hence the associated speculative execution costs -- based on a new metric called goodput, which characterizes the current observed load of the entire system and the speculation accuracy. We show that SmartSpec consistently reduces average request latency by up to 3.2x compared to non-speculative decoding baselines across different sizes of target models, draft models, request rates, and datasets. Moreover, SmartSpec can be applied to different styles of speculative decoding, including traditional, model-based approaches as well as model-free methods like prompt lookup and tree-style decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論遅延の低減は重要であり、投機的復号化(SD)は最も効果的な手法の1つである。
LLMが全てのトークンを直接生成させる代わりに、投機的復号法は潜在的な出力を予測するために有効なプロキシを使用し、生成品質を損なうことなくLSMによって検証される。
しかし、実際のオンライン LLM サービスシステムに SD をデプロイすることは、常に改善をもたらすとは限らない -- より高い要求率や低い投機精度の下では、パラドックス的にレイテンシを向上する。さらに、異なるシステム負荷下でのすべてのワークロードに対して、最高の投機期間の作業はない。観察に基づいて、SmartSpec を開発した。SmartSpec は、各要求に対して最適な投機期間を動的に決定する(つまり、多くのトークンに対する投機がない)。従って、関連する投機実行コストは、システム全体の現在の監視負荷と投機精度を特徴付ける新しい指標である goodput に基づく。
SmartSpecは、ターゲットモデル、ドラフトモデル、要求レート、データセットの異なるサイズの非投機的デコードベースラインと比較して、平均要求遅延を最大3.2倍まで減少させる。
さらにSmartSpecは、従来のモデルベースのアプローチや、プロンプトルックアップやツリースタイルのデコーディングといったモデルフリーメソッドなど、投機的デコーディングの異なるスタイルにも適用することができる。
関連論文リスト
- Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。
これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。
1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文 参考訳(メタデータ) (2024-02-16T23:36:43Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は,小型のLMをチューニングし,未調整のLMと小型のLMの予測の差を適用し,元の予測をシフトさせる。
TruthfulQAでは、プロキシチューニングされたモデルは直接チューニングされたモデルよりも真実である。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
AQLMは、パラメータ毎に3ビット未満に圧縮する場合、精度-vs-モデルサイズで最適である最初のスキームである。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供する。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - The Synergy of Speculative Decoding and Batching in Serving Large
Language Models [3.3849225405083336]
本稿では,異なるバッチサイズに対して最適な投機長を選択する新しい投機的復号法を提案する。
提案手法は, 提案手法により, 固定された投機長を持つ, 最先端の投機復号方式と同等以上の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-10-28T20:36:36Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification [13.174386920965107]
SpecInferは、木に基づく投機的推測と検証を扱う生成的大規模言語モデル(LLM)を高速化するシステムである。
トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLLMに対して並列に検証する。
論文 参考訳(メタデータ) (2023-05-16T20:12:59Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。