論文の概要: Lossless Speedup of Autoregressive Translation with Generalized
Aggressive Decoding
- arxiv url: http://arxiv.org/abs/2203.16487v2
- Date: Thu, 31 Mar 2022 15:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 12:34:18.079979
- Title: Lossless Speedup of Autoregressive Translation with Generalized
Aggressive Decoding
- Title(参考訳): 一般化アグレッシブデコーディングによる自動回帰翻訳のロスレス高速化
- Authors: Heming Xia, Tao Ge, Furu Wei, Zhifang Sui
- Abstract要約: GAD(Generalized Aggressive Decoding)は、自動回帰翻訳を品質損失なく高速化するための新しいアプローチである。
GADは自動回帰翻訳と同じ性能を達成しているが、NATの起草と自己回帰検証は並列計算のため高速であるため、はるかに効率的に行うことができる。
- 参考スコア(独自算出の注目度): 89.34215758499198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Generalized Aggressive Decoding (GAD) -- a novel
approach to accelerating autoregressive translation with no quality loss,
through the collaboration of autoregressive and non-autoregressive translation
(NAT) of the Transformer. At each decoding iteration, GAD aggressively decodes
a number of tokens in parallel as a draft through NAT and then verifies them in
the autoregressive manner, where only the tokens that pass the verification are
kept as decoded tokens. GAD can achieve the same performance as autoregressive
translation but much more efficiently because both NAT drafting and
autoregressive verification are fast due to parallel computing. We conduct
experiments in the WMT14 English-German translation task and confirm that the
vanilla GAD yields exactly the same results as greedy decoding with an around
3x speedup, and that its variant (GAD++) with an advanced verification strategy
not only outperforms the greedy translation and even achieves the comparable
translation quality with the beam search result, but also further improves the
decoding speed, resulting in an around 5x speedup over autoregressive
translation. Our models and codes are available at
https://github.com/hemingkx/Generalized-Aggressive-Decoding.
- Abstract(参考訳): 本稿では,GAD(Generalized Aggressive Decoding)を提案する。トランスフォーマーの自己回帰的・非自己回帰的翻訳(NAT)の協調により,品質損失のない自己回帰的翻訳を高速化する新しいアプローチである。
各デコーディングイテレーションで、gadはnatを通してドラフトとして並行して多数のトークンを積極的にデコードし、検証をパスするトークンのみがデコードされたトークンとして保持される自己回帰的な方法でそれらを検証する。
GADは自動回帰翻訳と同じ性能を達成できるが、NATの起草と自己回帰検証は並列計算のため高速であるため、はるかに効率的に行うことができる。
我々はwmt14の英ドイツ語翻訳タスクで実験を行い、バニラgadが約3倍のスピードアップでグリーディ復号と全く同じ結果が得られること、そしてその進化した検証戦略(gad++)がグリーディ翻訳よりも優れるだけでなく、ビーム検索結果と同等の翻訳品質を達成し、さらにデコード速度を向上し、自己回帰翻訳よりも約5倍のスピードアップをもたらすことを確認した。
私たちのモデルとコードはhttps://github.com/hemingkx/generalized-aggressive-decodingで利用可能です。
関連論文リスト
- Multi-Token Joint Speculative Decoding for Accelerating Large Language Model Inference [41.93955876156331]
大規模言語モデル (LLM) は様々なタスクにおいてそのパワーを実証しているが、その推論にはかなりの時間とエネルギーコストがかかる。
投機的復号法は、より小さなモデルを用いて1つのトークン列を提案し、その後ターゲットの大モデルによってバッチで検証される。
自己回帰復号法と比較すると、投機的復号法は同じ数のトークンを生成し、大きなモデルの実行量は少ない。
投機的復号化よりも出力の難易度と効率性が良いアルゴリズムは、実際より有用である。
論文 参考訳(メタデータ) (2024-07-12T23:29:54Z) - Optimizing Speculative Decoding for Serving Large Language Models Using Goodput [32.479057822334354]
投機的復号化は、大規模言語モデルにおいて最も効果的な手法の1つである。
要求毎に最適な投機期間を決定するための動的フレームワークであるSmartSpecを開発した。
SmartSpecは、非投機的復号化ベースラインに比べて平均要求遅延を最大3.2倍まで減少させる。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.4倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。
これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。
1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文 参考訳(メタデータ) (2024-02-16T23:36:43Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。