論文の概要: Cascade Speculative Drafting for Even Faster LLM Inference
- arxiv url: http://arxiv.org/abs/2312.11462v3
- Date: Fri, 16 Feb 2024 05:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:46:05.394957
- Title: Cascade Speculative Drafting for Even Faster LLM Inference
- Title(参考訳): より高速なLDM推論のためのカスケード投機
- Authors: Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin
Chen-Chuan Chang
- Abstract要約: 投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
- 参考スコア(独自算出の注目度): 25.642604897018852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduced to enhance the efficiency of large language model (LLM) inference,
speculative decoding operates by having a smaller model generate a draft. A
larger target model then reviews this draft to align with its output, and any
acceptance by the target model results in a reduction of the number of the
target model runs, ultimately improving efficiency. However, the drafting
process in speculative decoding includes slow autoregressive generation and
allocates equal time to generating tokens, irrespective of their importance.
These inefficiencies collectively contribute to the suboptimal performance of
speculative decoding. To further improve LLM inference, we introduce Cascade
Speculative Drafting (CS Drafting), a speculative execution algorithm that
incorporates two types of cascades. The Vertical Cascade eliminates
autoregressive generation from neural models, while the Horizontal Cascade
optimizes time allocation in drafting for improved efficiency. Combining both
cascades, CS Drafting achieves up to an 81 percent additional speedup over
speculative decoding in our experiments, while maintaining the same output
distribution as the target model. Our code is publicly available at
https://github.com/lfsszd/CS-Drafting.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の効率を高めるために導入された投機的復号法は、より小さなモデルでドラフトを生成する。
より大きなターゲットモデルは、その出力に合わせてこのドラフトをレビューし、ターゲットモデルによる受け入れは、ターゲットモデルの実行数を減らす結果となり、最終的に効率が向上する。
しかし、投機的復号法における起草過程は、自己回帰生成が遅いことを含み、その重要性に関係なくトークンの生成に等しい時間を割り当てる。
これらの非効率性は総合的に投機的復号の最適性能に寄与する。
LLM推論をさらに改善するため、2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を導入する。
Vertical Cascadeはニューラルネットワークモデルからの自己回帰生成を排除し、Horizontal Cascadeはドラフトの時間割当を最適化して効率を向上する。
両方のカスケードを組み合わせることで、CS Draftingは、ターゲットモデルと同じ出力分布を維持しながら、我々の実験で投機的復号化よりも最大81%高速化できる。
私たちのコードはhttps://github.com/lfsszd/CS-Drafting.comで公開されています。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。