論文の概要: SpecTr: Fast Speculative Decoding via Optimal Transport
- arxiv url: http://arxiv.org/abs/2310.15141v2
- Date: Thu, 18 Jan 2024 04:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:00:28.215637
- Title: SpecTr: Fast Speculative Decoding via Optimal Transport
- Title(参考訳): SpecTr: 最適なトランスポートによる高速な投機的デコーディング
- Authors: Ziteng Sun and Ananda Theertha Suresh and Jae Hun Ro and Ahmad Beirami
and Himanshu Jain and Felix Yu
- Abstract要約: このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
- 参考スコア(独自算出の注目度): 30.18181671899423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive sampling from large language models has led to
state-of-the-art results in several natural language tasks. However,
autoregressive sampling generates tokens one at a time making it slow, and even
prohibitive in certain tasks. One way to speed up sampling is
$\textit{speculative decoding}$: use a small model to sample a $\textit{draft}$
(block or sequence of tokens), and then score all tokens in the draft by the
large language model in parallel. A subset of the tokens in the draft are
accepted (and the rest rejected) based on a statistical method to guarantee
that the final output follows the distribution of the large model. In this
work, we provide a principled understanding of speculative decoding through the
lens of optimal transport (OT) with $\textit{membership cost}$. This framework
can be viewed as an extension of the well-known $\textit{maximal-coupling}$
problem. This new formulation enables us to generalize the speculative decoding
method to allow for a set of $k$ candidates at the token-level, which leads to
an improved optimal membership cost. We show that the optimal draft selection
algorithm (transport plan) can be computed via linear programming, whose
best-known runtime is exponential in $k$. We then propose a valid draft
selection algorithm whose acceptance probability is $(1-1/e)$-optimal
multiplicatively. Moreover, it can be computed in time almost linear with size
of domain of a single token. Using this $new draft selection$ algorithm, we
develop a new autoregressive sampling algorithm called $\textit{SpecTr}$, which
provides speedup in decoding while ensuring that there is no quality
degradation in the decoded output. We experimentally demonstrate that for
state-of-the-art large language models, the proposed approach achieves a wall
clock speedup of 2.13X, a further 1.37X speedup over speculative decoding on
standard benchmarks.
- Abstract(参考訳): 大規模言語モデルからの自己回帰サンプリングは、いくつかの自然言語タスクにおいて最先端の結果をもたらす。
しかし、自己回帰サンプリングはトークンを1つずつ生成して遅くし、特定のタスクでは禁止される。
サンプリングを高速化する1つの方法は、$\textit{speculative decoding}$: $\textit{draft}$(ブロックまたはトークンのシーケンス)をサンプリングするために小さなモデルを使用して、大きな言語モデルによってドラフト内のすべてのトークンを並列にスコアする。
ドラフト中のトークンのサブセットは、最終的な出力が大きなモデルの分布に従うことを保証するための統計的方法に基づいて受け入れられる(そして、残りは拒否される)。
本研究では、最適な輸送(OT)のレンズを$\textit{membership cost}$とすることで、投機的復号化の原理的理解を提供する。
このフレームワークはよく知られた$\textit{maximal-coupling}$問題の拡張と見なすことができる。
この新しい定式化により、投機的復号法を一般化し、トークンレベルで1セットの$k$の候補を可能にすることで、最適なメンバーシップコストが向上します。
最適なドラフト選択アルゴリズム(トランスポート計画)は線形プログラミングによって計算できることを示し,その最もよく知られた実行時間は$k$で指数関数的である。
次に, 許容確率が(1-1/e)$-optimal multiplicative である有効なドラフト選択アルゴリズムを提案する。
さらに、1つのトークンのドメインサイズでほぼ線形に時間で計算することができる。
この新たなドラフト選択$アルゴリズムを用いて、デコードされた出力に品質劣化がないことを保証しながらデコードを高速化する、$\textit{SpecTr}$と呼ばれる新しい自動回帰サンプリングアルゴリズムを開発する。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化を実現する。
関連論文リスト
- Ouroboros: Speculative Decoding with Large Model Enhanced Drafting [75.34417163859018]
我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Object Recognition as Next Token Prediction [105.334222837841]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Draft & Verify: Lossless Large Language Model Acceleration via
Self-Speculative Decoding [26.286435804599524]
本稿では,Large Language Models (LLMs) の高速化を目的とした新しい推論手法,自己投機的デコーディングを提案する。
提案手法では、追加のニューラルネットワークトレーニングを必要とせず、メモリフットプリントを必要とせず、推論アクセラレーションのためのプラグアンドプレイソリューションとなる。
LLaMA-2とその微調整されたモデルによるベンチマークでは、最大1.73$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - A Spectral Approach to Item Response Theory [6.5268245109828005]
本稿では,Raschモデルに対する新しい項目推定アルゴリズムを提案する。
我々のアルゴリズムの中核は、アイテム-イムグラフ上で定義されたマルコフ連鎖の定常分布の計算である。
合成および実生活データセットの実験により、我々のアルゴリズムは、文献でよく使われている手法とスケーラブルで正確で競合することを示した。
論文 参考訳(メタデータ) (2022-10-09T18:57:08Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean
Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。
我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T03:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。