論文の概要: Speculative Decoding: Lossless Speedup of Autoregressive Translation
- arxiv url: http://arxiv.org/abs/2203.16487v5
- Date: Mon, 16 Oct 2023 07:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 07:09:38.570097
- Title: Speculative Decoding: Lossless Speedup of Autoregressive Translation
- Title(参考訳): 投機的復号:自己回帰翻訳のロスレス高速化
- Authors: Heming Xia, Tao Ge, Si-Qing Chen, Furu Wei, Zhifang Sui
- Abstract要約: 本稿では,コンピュータアーキテクチャにおける投機的実行にインスパイアされた新しい復号パラダイムSpecDecを提案する。
SpecDecはまず、NATモデルで次の$k$トークンを投機的にドラフト(デコード)し、ATモデルで検証する。
我々は4つの標準WMT翻訳ベンチマークで実験を行い、バニラSpecDecがATgreedy復号と全く同じ結果を得ることを確認した。
- 参考スコア(独自算出の注目度): 81.99257001639837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different from some previous work accelerating autoregressive translation
(AT) at the sacrifice of quality, we propose Speculative Decoding (SpecDec) --
a novel decoding paradigm inspired by speculative execution in computer
architecture, which combines respective advantages of AT and non-autoregressive
translation (NAT) for lossless speedup of translation. At each decoding step,
SpecDec first speculatively drafts (i.e. decodes) next $k$ tokens with an NAT
model and then verifies them with an AT model, where only the drafted tokens
passing the verification are accepted as decoded tokens for guaranteeing its
translation result is exactly the same as AT. The collaboration of NAT drafting
and AT verification leads to a much higher decoding speed without quality loss
due to parallel computing enabled by speculative decoding.
We conduct experiments in 4 standard WMT translation benchmarks and confirm
the vanilla SpecDec yields exactly the same results as AT greedy decoding with
an around $3\times$ speedup, and that its variant (SpecDec++) with an advanced
verification strategy not only outperforms AT greedy decoding, but also further
improves the decoding speed, resulting in an around $5\times$ speedup over AT.
Moreover, SpecDec can be easily generalized for speeding up other seq2seq tasks
like Abstractive Summarization, and benefit more from stronger computing
devices, demonstrating its potential to become a \textit{de facto} decoding
standard in the future for efficient and lossless seq2seq generation. We will
release all our codes and checkpoints to facilitate reproducing our results.
- Abstract(参考訳): 品質を犠牲にして自己回帰翻訳(AT)を高速化する以前の研究とは違って,ATと非自己回帰翻訳(NAT)のそれぞれの利点を組み合わせた,コンピュータアーキテクチャにおける投機的実行にインスパイアされた新しい復号パラダイムであるSpecDec(Speculative Decoding)を提案する。
それぞれのデコードステップにおいて、SpecDecは次に$k$トークンをNATモデルで投機的にドラフトし、それをATモデルで検証し、検証に合格するトークンのみをデコードトークンとして受け入れ、翻訳結果の保証はATと全く同じである。
NATドラフトとAT検証の協力により、投機的復号化によって実現された並列コンピューティングにより、品質損失のない復号速度が大幅に向上する。
我々は、4つの標準wmt翻訳ベンチマークで実験を行い、vanilla specdecが約3\times$のスピードアップでgreedyデコードと全く同じ結果が得られることを確認し、その変種(specdec++)がgreedyデコードよりも優れるだけでなく、デコード速度をさらに向上させ、atで約$5\times$のスピードアップを実現しました。
さらに、SpecDecは抽象的な要約のような他のSeq2seqタスクを高速化し、より強力なコンピューティングデバイスから恩恵を受け、効率よくロスレスなSeq2seq生成のための将来の‘textit{de facto}デコーディング標準になる可能性を示している。
結果の再現を容易にするために、すべてのコードとチェックポイントをリリースします。
関連論文リスト
- Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - FastDraft: How to Train Your Draft [0.7499722271664144]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。
我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。
FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを24時間以内に1つのサーバに約100億のトークンでドラフトを作成することができました。
論文 参考訳(メタデータ) (2024-11-17T12:32:44Z) - SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。