論文の概要: PaSS: Parallel Speculative Sampling
- arxiv url: http://arxiv.org/abs/2311.13581v1
- Date: Wed, 22 Nov 2023 18:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 14:00:47.441825
- Title: PaSS: Parallel Speculative Sampling
- Title(参考訳): pass:並列投機的サンプリング
- Authors: Giovanni Monea, Armand Joulin, Edouard Grave
- Abstract要約: 言語モデルのサイズを数千億のパラメータに拡大すると、幅広いタスクにおいて素晴らしいパフォーマンスが得られます。
生成時にこれらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスを必要とし、メモリからパラメータの完全なセットを読み取る。
有望なパフォーマンス(最大30%$スピードアップ)を示しますが、追加のパラメータは$O(d_emb)$でしかありません。
- 参考スコア(独自算出の注目度): 29.23180061749074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling the size of language models to tens of billions of parameters has led
to impressive performance on a wide range of tasks. At generation, these models
are used auto-regressively, requiring a forward pass for each generated token,
and thus reading the full set of parameters from memory. This memory access
forms the primary bottleneck for generation and it worsens as the model size
increases. Moreover, executing a forward pass for multiple tokens in parallel
often takes nearly the same time as it does for just one token. These two
observations lead to the development of speculative sampling, where a second
smaller model is used to draft a few tokens, that are then validated or
rejected using a single forward pass of the large model. Unfortunately, this
method requires two models that share the same tokenizer and thus limits its
adoption. As an alternative, we propose to use parallel decoding as a way to
draft multiple tokens from a single model with no computational cost, nor the
need for a second model. Our approach only requires an additional input token
that marks the words that will be generated simultaneously. We show promising
performance (up to $30\%$ speed-up) while requiring only as few as $O(d_{emb})$
additional parameters.
- Abstract(参考訳): 言語モデルのサイズを数十億のパラメータに拡大することで、幅広いタスクで素晴らしいパフォーマンスを実現しています。
生成時、これらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスが必要となり、メモリからパラメータの完全なセットを読み込む。
このメモリアクセスは生成の主要なボトルネックを形成し、モデルのサイズが大きくなるにつれて悪化する。
さらに、複数のトークンのフォワードパスを並列に実行するには、1つのトークンとほぼ同じ時間を要することが多い。
これら2つの観測により投機的サンプリングが発展し、2つ目の小さなモデルがいくつかのトークンをドラフトするために使われ、大きなモデルの1つの前方パスを使用して検証または拒否される。
残念なことに、この方法は2つのモデルを必要とする。
代替案として,計算コストや第2モデルの必要性なしに,単一のモデルから複数のトークンを描画する方法として並列デコードを使用することを提案する。
我々のアプローチでは、同時に生成される単語をマークする追加の入力トークンのみを必要とします。
有望なパフォーマンス(最大$30\%$のスピードアップ)を示していますが、追加パラメータは最低$o(d_{emb})$しか必要ありません。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
そこで我々はPruMergeを提案する。PruMergeは適応型視覚トークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Chunk-based Nearest Neighbor Machine Translation [7.747003493657217]
我々は、単一のトークンではなく、データストアからトークンの塊を検索する、テクスチャンクベースの$k$NN-MTモデルを導入する。
静的ドメイン適応とオンザフライ適応という2つの設定による機械翻訳の実験は、チャンクベースのモデルが、翻訳品質をわずかに低下させるだけで、大幅なスピードアップ(最大4倍)につながることを示している。
論文 参考訳(メタデータ) (2022-05-24T17:39:25Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。