論文の概要: Block Verification Accelerates Speculative Decoding
- arxiv url: http://arxiv.org/abs/2403.10444v2
- Date: Thu, 25 Jul 2024 17:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:26:49.247292
- Title: Block Verification Accelerates Speculative Decoding
- Title(参考訳): ブロック検証は投機的復号化を加速する
- Authors: Ziteng Sun, Uri Mendlovic, Yaniv Leviathan, Asaf Aharoni, Ahmad Beirami, Jae Hun Ro, Ananda Theertha Suresh,
- Abstract要約: 投機的復号法は高速モデルを用いて、ターゲットモデルによって並列に検証されるトークンのブロックをドラフトする。
以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。
ブロック全体を共同で検証する単純なドラフト検証アルゴリズムであるBlock Verificationを提案する。
- 参考スコア(独自算出の注目度): 23.764655044837113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding is an effective method for lossless acceleration of large language models during inference. It uses a fast model to draft a block of tokens which are then verified in parallel by the target model, and provides a guarantee that the output is distributed identically to a sample from the target model. In prior works, draft verification is performed independently token-by-token. Surprisingly, we show that this approach is not optimal. We propose Block Verification, a simple draft verification algorithm that verifies the entire block jointly and provides additional wall-clock speedup. We prove that the proposed mechanism is optimal in the expected number of tokens produced each iteration and specifically is never worse than the standard token-level verification. Empirically, block verification provides modest but consistent wall-clock speedups over the standard token verification algorithm of 5%-8% in a range of tasks and datasets. Given that block verification does not increase code complexity, maintains the strong lossless guarantee of the standard speculative decoding verification algorithm, cannot deteriorate performance, and, in fact, consistently improves it, it can be used as a good default in speculative decoding implementations.
- Abstract(参考訳): 投機的復号化は、推論中に大きな言語モデルのロスレスアクセラレーションに有効な方法である。
高速モデルを使用してトークンのブロックをドラフトし、ターゲットモデルによって並列に検証され、出力がターゲットモデルからのサンプルと同一に分散されることを保証する。
以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。
驚くべきことに、このアプローチは最適ではありません。
ブロック全体を共同で検証し,ウォールクロックの高速化を実現する,シンプルなドラフト検証アルゴリズムであるBlock Verificationを提案する。
提案手法は,各イテレーションで生成されるトークンの期待数において最適であり,特に標準トークンレベルの検証よりも悪いものではないことを実証する。
実証的には、ブロック検証は、さまざまなタスクやデータセットで5%-8%の標準的なトークン検証アルゴリズムに対して、控えめだが一貫したウォールクロックのスピードアップを提供する。
ブロック検証がコードの複雑さを増さないこと、標準的な投機的復号化検証アルゴリズムの強い損失のない保証を維持すること、性能を劣化させることができないこと、そして実際にそれを継続的に改善することを考えると、投機的復号化実装において良いデフォルトとして使用できる。
関連論文リスト
- A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - The Latency Price of Threshold Cryptosystem in Blockchains [52.359230560289745]
本稿では,Byzantine-fault Tolerant(BFT)コンセンサスプロトコルを用いた,しきい値暗号とブロックチェーンのクラス間の相互作用について検討する。
しきい値暗号システムに対する既存のアプローチは、しきい値暗号プロトコルを実行するための少なくとも1つのメッセージ遅延の遅延オーバーヘッドを導入している。
しきい値が狭いブロックチェーンネイティブのしきい値暗号システムに対して,このオーバーヘッドを取り除く機構を提案する。
論文 参考訳(メタデータ) (2024-07-16T20:53:04Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - SAT-based Formal Fault-Resistance Verification of Cryptographic Circuits [4.42563968195381]
本稿では,NP完全であることを示す耐故障性検証問題を定式化する。
そこで我々は,耐故障性検証問題をBoolean satisfiability (SAT)問題として符号化する新しい手法を考案した。
この手法は、リアルな暗号回路ベンチマークで広く評価されているオープンソースツールFIRMERで実装されている。
論文 参考訳(メタデータ) (2023-07-02T13:01:32Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。