論文の概要: Greedy Multi-Path Block Verification for Faster Decoding in Speculative Sampling
- arxiv url: http://arxiv.org/abs/2602.16961v1
- Date: Wed, 18 Feb 2026 23:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.52618
- Title: Greedy Multi-Path Block Verification for Faster Decoding in Speculative Sampling
- Title(参考訳): 投機サンプリングにおける高速デコードのためのGreedy Multi-Path Block Verification
- Authors: Rahul Thomas, Arka Pal,
- Abstract要約: オフパス確率を用いた検証アルゴリズムよりもブロック検証が最適であることを示す。
我々はgreedy multi-path block verification (GBV)と呼ばれる効率的な手法を定式化する。
Llama-370Bでは、GBVはSOTAのマルチパス検証手法よりも15%以上、エンドツーエンドの復号スループットを向上させることができる。
- 参考スコア(独自算出の注目度): 0.776402435567685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of $L$-step speculative decoding is to accelerate autoregressive decoding of a target model by using a cheaper draft model to generate a candidate path of $L$ tokens. Based on a verification algorithm involving target and draft model probabilities, a prefix of the candidate sequence is accepted, and an additional correction token is sampled from a residual distribution to ensure that the final output adheres to the target distribution. While standard speculative decoding uses a verification algorithm which is independent at each token on the path, a recent extension called block verification uses a joint condition involving all sampled on-path probabilities. Block verification (BV) was shown to be optimal over all verification algorithms which use only on-path probabilities, improving on standard speculative decoding. In this work, we first show that block verification is optimal even over verification algorithms that use off-path probabilities, by constructing an information-agnostic linear program (LP). Further, we can extend our LP to the setting where the draft model samples multiple candidate paths, and use it to construct a natural class of multi-path block verification generalizations. While computing the optimal algorithm in this class is not tractable, by considering a stricter class of greedy algorithms, we can formulate an efficient method called greedy multi-path block verification (GBV). Empirically, GBV can improve block efficiency by over 30% and reduce decoding walltimes by over 15% relative to BV. On Llama-3 70B, GBV can improve the end-to-end decoding throughput over SOTA multi-path verification methods by more than 15%.
- Abstract(参考訳): L$-stepの投機的復号化の目的は、より安価なドラフトモデルを使用して目標モデルの自己回帰復号化を加速し、$L$トークンの候補パスを生成することである。
ターゲットモデル確率とドラフトモデル確率を含む検証アルゴリズムに基づいて、候補系列のプレフィックスを受け入れ、残差分布から追加の補正トークンをサンプリングし、最終出力が目標分布に付着することを保証する。
標準的な投機復号法では、経路上の各トークンで独立な検証アルゴリズムを用いるが、ブロック検証と呼ばれる最近の拡張では、全てのオンパス確率を含む結合条件を使用する。
ブロック検証(BV)は、オンパス確率のみを使用する全ての検証アルゴリズムに対して最適であることが示され、標準的な投機的復号法が改善された。
本研究では,情報に依存しない線形プログラム(LP)を構築することにより,オフパス確率を用いた検証アルゴリズムよりもブロック検証が最適であることを示す。
さらに、ドラフトモデルが複数の候補パスをサンプリングする設定までLPを拡張し、それをマルチパスブロック検証の自然なクラスを構築するために使用することができる。
このクラスにおける最適アルゴリズムの計算は難解ではないが、より厳密なグレーディアルゴリズムのクラスを考えることで、グレーディ・マルチパス・ブロック検証(GBV)と呼ばれる効率的な手法を定式化することができる。
実験的に、GBVはブロック効率を30%以上改善し、BVと比較してデコーディングの時間を15%以上削減できる。
Llama-370Bでは、GBVはSOTAのマルチパス検証手法よりも15%以上、エンドツーエンドの復号スループットを向上させることができる。
関連論文リスト
- Global Resolution: Optimal Multi-Draft Speculative Sampling via Convex Minimization [1.2674961594128336]
1つのドラフトモデルから$n$トークンが選択されたとき、最適な投機的サンプリングのためのアルゴリズムを考案する。
提案手法は,生成トークン当たり90%の受信と100ミリ秒未満のオーバーヘッドで,ターゲットモデル分布から無視できないずれを生じさせるマルチドラフトアルゴリズムである。
論文 参考訳(メタデータ) (2025-11-19T21:59:43Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。
本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。
提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-05-18T12:51:55Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Block Verification Accelerates Speculative Decoding [23.764655044837113]
投機的復号法は高速モデルを用いて、ターゲットモデルによって並列に検証されるトークンのブロックをドラフトする。
以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。
ブロック全体を共同で検証する単純なドラフト検証アルゴリズムであるBlock Verificationを提案する。
論文 参考訳(メタデータ) (2024-03-15T16:28:22Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。