Fugu-MT 論文翻訳(概要): PaSS: Parallel Speculative Sampling

論文の概要: PaSS: Parallel Speculative Sampling

arxiv url: http://arxiv.org/abs/2311.13581v1
Date: Wed, 22 Nov 2023 18:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 14:00:47.441825
Title: PaSS: Parallel Speculative Sampling
Title（参考訳）: pass:並列投機的サンプリング
Authors: Giovanni Monea, Armand Joulin, Edouard Grave
Abstract要約: 言語モデルのサイズを数千億のパラメータに拡大すると、幅広いタスクにおいて素晴らしいパフォーマンスが得られます。生成時にこれらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスを必要とし、メモリからパラメータの完全なセットを読み取る。有望なパフォーマンス(最大30%$スピードアップ)を示しますが、追加のパラメータは$O(d_emb)$でしかありません。
参考スコア（独自算出の注目度）: 29.23180061749074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30\%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.
Abstract（参考訳）: 言語モデルのサイズを数十億のパラメータに拡大することで、幅広いタスクで素晴らしいパフォーマンスを実現しています。生成時、これらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスが必要となり、メモリからパラメータの完全なセットを読み込む。このメモリアクセスは生成の主要なボトルネックを形成し、モデルのサイズが大きくなるにつれて悪化する。さらに、複数のトークンのフォワードパスを並列に実行するには、1つのトークンとほぼ同じ時間を要することが多い。これら2つの観測により投機的サンプリングが発展し、2つ目の小さなモデルがいくつかのトークンをドラフトするために使われ、大きなモデルの1つの前方パスを使用して検証または拒否される。残念なことに、この方法は2つのモデルを必要とする。代替案として,計算コストや第2モデルの必要性なしに,単一のモデルから複数のトークンを描画する方法として並列デコードを使用することを提案する。我々のアプローチでは、同時に生成される単語をマークする追加の入力トークンのみを必要とします。有望なパフォーマンス(最大$30\%$のスピードアップ)を示していますが、追加パラメータは最低$o(d_{emb})$しか必要ありません。

関連論文リスト

CARD: Cache-Assisted Parallel Speculative Decoding for Efficient Large Language Model Inference [19.14564724894706]
本稿では,'query-and-correct'パラダイムを用いた投機的復号化フレームワークを提案する。 CARDは、ドラフトと検証を分離する: ドラフトモデルは、共有キャッシュをポップアップさせる候補トークンを生成し、ターゲットモデルは、ドラフトモデルの生成方向を同時に修正する。提案手法では,バニラ復号法よりも最大4.83高速化が可能であり,ドラフトモデルやターゲットモデルの微調整は不要である。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [59.065471969232284]
トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
論文参考訳（メタデータ） (2025-06-05T17:45:10Z)
Masked Generative Nested Transformers with Decode Time Scaling [21.34984197218021]
本研究では,視覚生成アルゴリズムにおける推論計算効率のボトルネックに対処することを目的とする。我々は、計算を効果的に活用するためにデコード時間モデルのスケーリングスケジュールを設計し、計算の一部をキャッシュして再利用することができる。実験の結果,ベースラインよりも3倍近い計算量で,競争性能が得られることがわかった。
論文参考訳（メタデータ） (2025-02-01T09:41:01Z)
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文参考訳（メタデータ） (2024-10-30T16:19:00Z)
AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。 AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文参考訳（メタデータ） (2024-10-22T19:15:35Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference [30.722379261991563]
LazyLLMは次のトークン予測に重要なトークンのKVを選択的に計算する手法である。 LLama 2 7Bモデルのプレフィルステージを2.34倍の精度で高速化する。
論文参考訳（メタデータ） (2024-07-19T06:34:45Z)
S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models [32.68002253527712]
より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
論文参考訳（メタデータ） (2024-07-02T05:14:15Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。 PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文参考訳（メタデータ） (2024-02-13T18:24:08Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
Chunk-based Nearest Neighbor Machine Translation [7.747003493657217]
我々は、単一のトークンではなく、データストアからトークンの塊を検索する、テクスチャンクベースの$k$NN-MTモデルを導入する。静的ドメイン適応とオンザフライ適応という2つの設定による機械翻訳の実験は、チャンクベースのモデルが、翻訳品質をわずかに低下させるだけで、大幅なスピードアップ(最大4倍)につながることを示している。
論文参考訳（メタデータ） (2022-05-24T17:39:25Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。