論文の概要: Ouroboros: Speculative Decoding with Large Model Enhanced Drafting
- arxiv url: http://arxiv.org/abs/2402.13720v1
- Date: Wed, 21 Feb 2024 11:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:42:05.750568
- Title: Ouroboros: Speculative Decoding with Large Model Enhanced Drafting
- Title(参考訳): Ouroboros: 大きなモデル拡張ドラフトによる投機的デコーディング
- Authors: Weilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong
Sun
- Abstract要約: 我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 75.34417163859018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drafting-then-verifying decoding methods such as speculative decoding are
widely adopted training-free methods to accelerate the inference of large
language models (LLMs). Instead of employing an autoregressive process to
decode tokens sequentially, speculative decoding initially creates drafts with
an efficient small model. Then LLMs are required to conduct verification and
correction in a non-autoregressive fashion to minimize time overhead.
Generating longer drafts can lead to even more significant speedups once
verified, but also incurs substantial trial and error costs if it fails.
Suffering from the high verification failure probability, existing decoding
methods cannot draft too much content for verification at one time, achieving
sub-optimal inference acceleration. In this paper, we introduce Ouroboros,
which constructs a phrase candidate pool from the verification process of LLMs
to provide candidates for draft generation of the small model. Thereby,
Ouroboros can further improve the efficiency and effectiveness of the initial
drafts. The experimental results on typical text generation tasks show that
Ouroboros achieves speedups of up to 1.9x and 2.8x compared to lookahead
decoding and speculative decoding, respectively. The source code of Ouroboros
is available at https://github.com/thunlp/Ouroboros.
- Abstract(参考訳): 投機的復号法のようなドラフト検証復号法は、大規模言語モデル(llm)の推論を加速するトレーニングフリーな手法として広く採用されている。
トークンを逐次デコードするために自動回帰処理を使う代わりに、投機的デコーディングは最初、効率的な小さなモデルでドラフトを作成する。
LLMは、時間オーバーヘッドを最小限に抑えるために、非自己回帰的な検証と修正を行う必要がある。
長いドラフトを生成することは、一度検証すればさらに大きなスピードアップにつながるが、失敗するとかなりの試行錯誤とエラーコストが発生する。
高検証失敗確率から、既存の復号法は一度に過剰な検証内容のドラフトを作成することができず、準最適推論加速を達成することができる。
本稿では,LLMの検証プロセスから句候補プールを構築し,小モデルのドラフト生成候補を提供するOuroborosを紹介する。
これにより、Ouroborosは初期ドラフトの効率性と有効性をさらに向上させることができる。
典型的なテキスト生成タスクの実験結果から,Ouroboros はルックアヘッドの復号化や投機的復号化に比べて最大1.9倍,2.8倍の高速化を実現している。
ouroborosのソースコードはhttps://github.com/thunlp/ouroborosで入手できる。
関連論文リスト
- FastDraft: How to Train Your Draft [0.7499722271664144]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。
我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。
FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを24時間以内に1つのサーバに約100億のトークンでドラフトを作成することができました。
論文 参考訳(メタデータ) (2024-11-17T12:32:44Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding [25.03122689338891]
本稿では,大規模言語モデルの高速化を目的とした新しい推論手法である自己推論復号法を提案する。
提案手法では、追加のニューラルネットワークトレーニングや、追加のメモリフットプリントを必要としない。
LLaMA-2とその変種によるベンチマークでは、最大1.99$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。