論文の概要: Fast Inference from Transformers via Speculative Decoding
- arxiv url: http://arxiv.org/abs/2211.17192v1
- Date: Wed, 30 Nov 2022 17:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:47:06.663868
- Title: Fast Inference from Transformers via Speculative Decoding
- Title(参考訳): 投機復号による変圧器からの高速推論
- Authors: Yaniv Leviathan, Matan Kalman, Yossi Matias
- Abstract要約: Transformersのような大規模な自己回帰モデルからの推論は遅く、Kトークンの復号化はモデルのKシリアル実行を伴います。
本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。
- 参考スコア(独自算出の注目度): 3.950600027250452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference from large autoregressive models like Transformers is slow -
decoding K tokens takes K serial runs of the model. In this work we introduce
speculative decoding - an algorithm to sample from autoregressive models faster
without any changes to the outputs, by computing several tokens in parallel. At
the heart of our approach lie the observations that (1) hard language-modeling
tasks often include easier subtasks that can be approximated well by more
efficient models, and (2) using speculative execution and a novel sampling
method, we can make exact decoding from the large models faster, by running
them in parallel on the outputs of the approximation models, potentially
generating several tokens concurrently, and without changing the distribution.
Our method supports existing off-the-shelf models without retraining or
architecture changes. We demonstrate it on T5-XXL and show a 2X-3X acceleration
compared to the standard T5X implementation, with identical outputs.
- Abstract(参考訳): トランスフォーマーのような大規模な自己回帰モデルからの推論は、kトークンのスローデコードである。
本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。
提案手法の核心にあるのは,(1)ハード言語モデリングタスクには,より効率的なモデルによって適切に近似できる簡単なサブタスクが含まれていること,(2)投機的実行と新しいサンプリング手法を用いることで,近似モデルの出力に対して並列に実行し,複数のトークンを同時に生成し,分散を変更することなく,大規模モデルからの正確な復号を高速に行えることにある。
提案手法は,既存の既成モデルに対して,再訓練やアーキテクチャの変更を伴わずにサポートしている。
我々は、T5-XXL上でこれを実証し、2X-3Xの加速度を標準のT5X実装と比較した。
関連論文リスト
- Tandem Transformers for Inference Efficient LLMs [52.252378358491015]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - Accelerating Transformer Inference for Translation via Parallel Decoding [2.89306442817912]
自動回帰復号化は機械翻訳(MT)における変圧器の効率を制限する
並列デコーディングアルゴリズムを3つ提示し、異なる言語やモデルでテストする。
論文 参考訳(メタデータ) (2023-05-17T17:57:34Z) - Accelerating Large Language Model Decoding with Speculative Sampling [9.851546623666588]
投機的サンプリング(英: Speculative sample)とは、変換器の呼び出し毎に複数のトークンを生成することで、変換器の復号を高速化するアルゴリズムである。
我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、分散セットアップで2-2.5倍のデコード速度を達成する。
論文 参考訳(メタデータ) (2023-02-02T18:44:11Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - FastSeq: Make Sequence Generation Faster [20.920579109726024]
我々は,精度を損なわずにシーケンス生成を高速化するFastSeqフレームワークを開発した。
様々なモデルで広く使われているベンチマークの結果は、4-9倍の推論速度向上を示す。
FastSeqは単純な1行のコード変更で簡単に使える。
論文 参考訳(メタデータ) (2021-06-08T22:25:28Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。