論文の概要: Parallel Speculative Decoding with Adaptive Draft Length
- arxiv url: http://arxiv.org/abs/2408.11850v2
- Date: Wed, 4 Sep 2024 13:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:09:05.394530
- Title: Parallel Speculative Decoding with Adaptive Draft Length
- Title(参考訳): アダプティブドラフト長を用いた並列投機デコード
- Authors: Tianyu Liu, Yun Li, Qitan Lv, Kai Liu, Jianchen Zhu, Winston Hu,
- Abstract要約: 投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。
PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。
PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
- 参考スコア(独自算出の注目度): 10.36819001596531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD), where an extra draft model is employed to provide multiple \textit{draft} tokens first and then the original target model verifies these tokens in parallel, has shown great power for LLM inference acceleration. However, existing SD methods suffer from the mutual waiting problem, i.e., the target model gets stuck when the draft model is \textit{guessing} tokens, and vice versa. This problem is directly incurred by the asynchronous execution of the draft model and the target model, and is exacerbated due to the fixed draft length in speculative decoding. To address these challenges, we propose a conceptually simple, flexible, and general framework to boost speculative decoding, namely \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL). Specifically, PEARL proposes \textit{pre-verify} to verify the first draft token in advance during the drafting phase, and \textit{post-verify} to generate more draft tokens during the verification phase. PEARL parallels the drafting phase and the verification phase via applying the two strategies, and achieves adaptive draft length for different scenarios, which effectively alleviates the mutual waiting problem. Moreover, we theoretically demonstrate that the mean accepted tokens of PEARL is more than existing \textit{draft-then-verify} works. Experiments on various text generation benchmarks demonstrate the effectiveness of our \name, leading to a superior speedup performance up to \textbf{3.79$\times$} and \textbf{1.52$\times$}, compared to auto-regressive decoding and vanilla speculative decoding, respectively.
- Abstract(参考訳): 投機的復号(SD)では、まず複数の \textit{draft} トークンを提供するために追加のドラフトモデルを使用し、次に元のターゲットモデルがこれらのトークンを並列に検証する。
しかし、既存のSDメソッドは、相互待ちの問題、すなわち、ドラフトモデルが \textit{guessing} トークンであるときにターゲットモデルが立ち往生する、という問題に悩まされる。
この問題は、ドラフトモデルとターゲットモデルの非同期実行によって直接発生し、投機的復号における固定されたドラフト長により悪化する。
これらの課題に対処するために、概念的に単純で柔軟な、投機的復号化を促進するための一般的なフレームワーク、すなわち \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL)を提案する。
具体的には、ドラフトフェーズ中に事前に最初のドラフトトークンを検証するために \textit{pre-verify} と、検証フェーズ中により多くのドラフトトークンを生成するために \textit{post-verify} を提案する。
PEARLは2つの戦略を適用してドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成し、相互待ち問題を効果的に軽減する。
さらに、理論上、PEARL の平均許容トークンが既存の \textit{draft-then-verify} よりも大きいことを証明している。
各種テキスト生成ベンチマークの実験では、自動回帰復号法とバニラ投機復号法と比較して、より優れたスピードアップ性能を実現した。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism [35.7077090639665]
そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。
EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。
提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
論文 参考訳(メタデータ) (2024-06-06T08:40:28Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。
この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。
CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文 参考訳(メタデータ) (2024-03-27T14:54:27Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.4倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding [25.03122689338891]
本稿では,大規模言語モデルの高速化を目的とした新しい推論手法である自己推論復号法を提案する。
提案手法では、追加のニューラルネットワークトレーニングや、追加のメモリフットプリントを必要としない。
LLaMA-2とその変種によるベンチマークでは、最大1.99$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。