論文の概要: PaSS: Parallel Speculative Sampling
- arxiv url: http://arxiv.org/abs/2311.13581v1
- Date: Wed, 22 Nov 2023 18:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 14:00:47.441825
- Title: PaSS: Parallel Speculative Sampling
- Title(参考訳): pass:並列投機的サンプリング
- Authors: Giovanni Monea, Armand Joulin, Edouard Grave
- Abstract要約: 言語モデルのサイズを数千億のパラメータに拡大すると、幅広いタスクにおいて素晴らしいパフォーマンスが得られます。
生成時にこれらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスを必要とし、メモリからパラメータの完全なセットを読み取る。
有望なパフォーマンス(最大30%$スピードアップ)を示しますが、追加のパラメータは$O(d_emb)$でしかありません。
- 参考スコア(独自算出の注目度): 29.23180061749074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling the size of language models to tens of billions of parameters has led
to impressive performance on a wide range of tasks. At generation, these models
are used auto-regressively, requiring a forward pass for each generated token,
and thus reading the full set of parameters from memory. This memory access
forms the primary bottleneck for generation and it worsens as the model size
increases. Moreover, executing a forward pass for multiple tokens in parallel
often takes nearly the same time as it does for just one token. These two
observations lead to the development of speculative sampling, where a second
smaller model is used to draft a few tokens, that are then validated or
rejected using a single forward pass of the large model. Unfortunately, this
method requires two models that share the same tokenizer and thus limits its
adoption. As an alternative, we propose to use parallel decoding as a way to
draft multiple tokens from a single model with no computational cost, nor the
need for a second model. Our approach only requires an additional input token
that marks the words that will be generated simultaneously. We show promising
performance (up to $30\%$ speed-up) while requiring only as few as $O(d_{emb})$
additional parameters.
- Abstract(参考訳): 言語モデルのサイズを数十億のパラメータに拡大することで、幅広いタスクで素晴らしいパフォーマンスを実現しています。
生成時、これらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスが必要となり、メモリからパラメータの完全なセットを読み込む。
このメモリアクセスは生成の主要なボトルネックを形成し、モデルのサイズが大きくなるにつれて悪化する。
さらに、複数のトークンのフォワードパスを並列に実行するには、1つのトークンとほぼ同じ時間を要することが多い。
これら2つの観測により投機的サンプリングが発展し、2つ目の小さなモデルがいくつかのトークンをドラフトするために使われ、大きなモデルの1つの前方パスを使用して検証または拒否される。
残念なことに、この方法は2つのモデルを必要とする。
代替案として,計算コストや第2モデルの必要性なしに,単一のモデルから複数のトークンを描画する方法として並列デコードを使用することを提案する。
我々のアプローチでは、同時に生成される単語をマークする追加の入力トークンのみを必要とします。
有望なパフォーマンス(最大$30\%$のスピードアップ)を示していますが、追加パラメータは最低$o(d_{emb})$しか必要ありません。
関連論文リスト
- TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。
AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。
我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文 参考訳(メタデータ) (2024-10-22T19:15:35Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference [30.722379261991563]
LazyLLMは次のトークン予測に重要なトークンのKVを選択的に計算する手法である。
LLama 2 7Bモデルのプレフィルステージを2.34倍の精度で高速化する。
論文 参考訳(メタデータ) (2024-07-19T06:34:45Z) - S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models [32.68002253527712]
より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。
マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:14:15Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Chunk-based Nearest Neighbor Machine Translation [7.747003493657217]
我々は、単一のトークンではなく、データストアからトークンの塊を検索する、テクスチャンクベースの$k$NN-MTモデルを導入する。
静的ドメイン適応とオンザフライ適応という2つの設定による機械翻訳の実験は、チャンクベースのモデルが、翻訳品質をわずかに低下させるだけで、大幅なスピードアップ(最大4倍)につながることを示している。
論文 参考訳(メタデータ) (2022-05-24T17:39:25Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。