論文の概要: Online Speculative Decoding
- arxiv url: http://arxiv.org/abs/2310.07177v2
- Date: Tue, 17 Oct 2023 18:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:09:12.416934
- Title: Online Speculative Decoding
- Title(参考訳): オンライン投機的デコード
- Authors: Xiaoxuan Liu, Lanxiang Hu, Peter Bailis, Ion Stoica, Zhijie Deng,
Alvin Cheung, Hao Zhang
- Abstract要約: 我々は,オンライン知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.22倍から3.06倍に削減された。
- 参考スコア(独自算出の注目度): 36.742315439450984
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Speculative decoding is a pivotal technique to accelerate the inference of
large language models (LLMs) by employing a smaller draft model to predict the
target model's outputs. However, its efficacy can be limited due to the low
predictive accuracy of the draft model, particularly when faced with diverse
text inputs and a significant capability gap between the draft and target
models. We introduce online speculative decoding (OSD) to address this
challenge. The main idea is to continually update (multiple) draft model(s) on
observed user query data using the abundant excess computational power in an
LLM serving cluster. Given that LLM inference is memory-bounded, the surplus
computational power in a typical LLM serving cluster can be repurposed for
online retraining of draft models, thereby making the training cost-neutral.
Since the query distribution of an LLM service is relatively simple, retraining
on query distribution enables the draft model to more accurately predict the
target model's outputs, particularly on data originating from query
distributions. As the draft model evolves online, it aligns with the query
distribution in real time, mitigating distribution shifts. We develop a
prototype of online speculative decoding based on online knowledge distillation
and evaluate it using both synthetic and real query data on several popular
LLMs. The results show a substantial increase in the token acceptance rate by
0.1 to 0.65, which translates into 1.22x to 3.06x latency reduction.
- Abstract(参考訳): 投機的復号化(英: Speculative decoding)は、より小さなドラフトモデルを用いてターゲットモデルの出力を予測することにより、大規模言語モデル(LLM)の推論を高速化する重要な手法である。
しかし、その有効性は、ドラフトモデルの予測精度が低いため、特に様々なテキスト入力に直面したり、ドラフトモデルとターゲットモデルの間の大きな能力ギャップに直面した場合に制限される。
この課題に対処するために、オンライン投機復号法(OSD)を導入する。
主な考え方は、LLMサービスクラスタにおける過剰な計算能力を利用して、観測されたユーザクエリデータのドラフトモデルを継続的に更新することである。
LLM推論がメモリバウンドであることを考えると、典型的なLCMサービスクラスタの余剰計算能力は、ドラフトモデルのオンライン再トレーニングに再利用することができ、トレーニングコストを中立にすることができる。
LLMサービスのクエリ分布は比較的単純であるため、クエリ分布の再トレーニングにより、特にクエリ分布から派生したデータに基づいて、ターゲットモデルの出力をより正確に予測することができる。
ドラフトモデルがオンラインで進化するにつれて、リアルタイムでクエリ分布と整合し、分散シフトを緩和します。
本稿では,オンライン知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,いくつかのLLMの合成データと実データを用いて評価する。
その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.22倍から3.06倍に削減された。
関連論文リスト
- Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Direct Alignment of Draft Model for Speculative Decoding with
Chat-Fine-Tuned LLMs [11.91629418177851]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - Harnessing Large Language Models as Post-hoc Correctors [7.067145619709089]
大規模言語モデル(LLM)は、機械学習(ML)モデルのパフォーマンスを最小限のコストで改善することができる。
提案するトレーニングフリーフレームワークLlmCorrにより,LLMがポストホックな修正器として機能し,任意のMLモデルの予測に対する修正を提案する。
実験の結果,LlmCorrは複数のモデルの性能を最大39%向上することがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。