論文の概要: Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation
- arxiv url: http://arxiv.org/abs/2203.16487v6
- Date: Mon, 30 Oct 2023 01:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 05:12:16.562434
- Title: Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation
- Title(参考訳): 投機的復号:Seq2seq生成の高速化のための投機的実行の爆発
- Authors: Heming Xia, Tao Ge, Peiyi Wang, Si-Qing Chen, Furu Wei, Zhifang Sui
- Abstract要約: 本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
- 参考スコア(独自算出の注目度): 80.2267931231335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Speculative Decoding (SpecDec), for the first time ever, to
formally study exploiting the idea of speculative execution to accelerate
autoregressive (AR) decoding. Speculative Decoding has two innovations:
Spec-Drafter -- an independent model specially optimized for efficient and
accurate drafting -- and Spec-Verification -- a reliable method for verifying
the drafted tokens efficiently in the decoding paradigm. Experimental results
on various seq2seq tasks including machine translation and abstractive
summarization show our approach can achieve around $5\times$ speedup for the
popular Transformer architectures with comparable generation quality to beam
search decoding, refreshing the impression that the draft-then-verify paradigm
introduces only $1.4\times$$\sim$$2\times$ speedup. In addition to the
remarkable speedup, we also demonstrate 3 additional advantages of SpecDec,
revealing its practical value for accelerating generative models in real-world
applications. Our models and codes are available at
https://github.com/hemingkx/SpecDec.
- Abstract(参考訳): 我々は,投機的実行の考え方を活用し,自己回帰的(ar)復号を加速するために,初めて投機的復号(specdec)を提案する。
spec-drafter -- 効率的かつ正確なドラフト作成のために特別に最適化された独立したモデル -- とspec-verification -- の2つのイノベーションがある。
機械翻訳や抽象的な要約を含むSeq2seqタスクの実験結果から、一般的なトランスフォーマーアーキテクチャにおいて、ビーム検索デコーディングに匹敵する世代品質の高速化を実現し、ドラフト-then-verifyパラダイムがわずか1.4\times$$\sim$2\times$スピードアップを実現した。
驚くべきスピードアップに加えて、SpecDecの3つのアドバンテージも示し、実世界のアプリケーションで生成モデルを加速する実用的価値を明らかにした。
私たちのモデルとコードはhttps://github.com/hemingkx/specdec.com/で利用可能です。
関連論文リスト
- FastDraft: How to Train Your Draft [0.7499722271664144]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。
我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。
FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを24時間以内に1つのサーバに約100億のトークンでドラフトを作成することができました。
論文 参考訳(メタデータ) (2024-11-17T12:32:44Z) - SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。
AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。
我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文 参考訳(メタデータ) (2024-10-22T19:15:35Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。