論文の概要: Optimal Block-Level Draft Verification for Accelerating Speculative Decoding
- arxiv url: http://arxiv.org/abs/2403.10444v1
- Date: Fri, 15 Mar 2024 16:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:21:13.784463
- Title: Optimal Block-Level Draft Verification for Accelerating Speculative Decoding
- Title(参考訳): 投機復号の高速化のための最適ブロックレベルドラフト検証
- Authors: Ziteng Sun, Jae Hun Ro, Ahmad Beirami, Ananda Theertha Suresh,
- Abstract要約: 本稿では,追加の計算コストやドラフトトークンを発生させることなく,ウォールクロックの高速化を実現する,より優れたドラフト検証アルゴリズムを提案する。
提案するブロックレベルの検証アルゴリズムを,幅広いタスクやデータセットで実証的に評価する。
- 参考スコア(独自算出の注目度): 25.344587643469538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has shown to be an effective method for lossless acceleration of large language models (LLMs) during inference. In each iteration, the algorithm first uses a smaller model to draft a block of tokens. The tokens are then verified by the large model in parallel and only a subset of tokens will be kept to guarantee that the final output follows the distribution of the large model. In all of the prior speculative decoding works, the draft verification is performed token-by-token independently. In this work, we propose a better draft verification algorithm that provides additional wall-clock speedup without incurring additional computation cost and draft tokens. We first formulate the draft verification step as a block-level optimal transport problem. The block-level formulation allows us to consider a wider range of draft verification algorithms and obtain a higher number of accepted tokens in expectation in one draft block. We propose a verification algorithm that achieves the optimal accepted length for the block-level transport problem. We empirically evaluate our proposed block-level verification algorithm in a wide range of tasks and datasets, and observe consistent improvements in wall-clock speedup when compared to token-level verification algorithm. To the best of our knowledge, our work is the first to establish improvement over speculative decoding through a better draft verification algorithm.
- Abstract(参考訳): 投機的復号化は,大言語モデル (LLM) の推論時のロスレスアクセラレーションに有効な手法であることが示されている。
各イテレーションにおいて、アルゴリズムはまず小さなモデルを使用してトークンのブロックをドラフトする。
トークンは大きなモデルによって並列に検証され、最後の出力が大きなモデルの分布に従うことを保証するためにトークンのサブセットのみが保持される。
以前の投機的復号処理の全てにおいて、ドラフト検証は独立してトークン・バイ・トークン化される。
本研究では,新たな計算コストやドラフトトークンを発生させることなく,ウォールクロックの高速化を実現する,より優れたドラフト検証アルゴリズムを提案する。
まず、ブロックレベルの最適輸送問題として、ドラフト検証ステップを定式化する。
ブロックレベルの定式化により、より広い範囲のドラフト検証アルゴリズムを検討でき、1つのドラフトブロックで期待されるトークンがより多く取得できる。
ブロックレベルの輸送問題に対して最適な許容長を求める検証アルゴリズムを提案する。
我々は,提案したブロックレベルの検証アルゴリズムを幅広いタスクやデータセットで実証的に評価し,トークンレベルの検証アルゴリズムと比較して,ウォールクロックの高速化が一貫した改善を観察する。
我々の知識を最大限に活用するために、我々の研究は、より良いドラフト検証アルゴリズムを通じて投機的復号化よりも改善した最初のものである。
関連論文リスト
- Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge [24.203554078434365]
並列復号処理にシーケンシャルな知識を統合する新しい投機的復号アルゴリズムであるCloverを提案する。
クローバーは、バイチュアン=スモールでは91%、バイチュアン=ラージュでは146%でベースラインを上回っている。
論文 参考訳(メタデータ) (2024-05-01T00:46:22Z) - SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。
この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。
CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文 参考訳(メタデータ) (2024-03-27T14:54:27Z) - Ouroboros: Speculative Decoding with Large Model Enhanced Drafting [75.34417163859018]
我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Verification and Validation of Convex Optimization Algorithms for Model
Predictive Control [1.5322124183968633]
本稿では,凸最適化アルゴリズムであるEllipsoid法とそのコード実装の形式的検証について述べる。
これらのコードプロパティと証明の適用性と制限も提示される。
数値安定性の制御に使用できるアルゴリズムの修正について述べる。
論文 参考訳(メタデータ) (2020-05-26T09:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。