論文の概要: Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding
- arxiv url: http://arxiv.org/abs/2606.01019v1
- Date: Sun, 31 May 2026 05:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.076959
- Title: Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding
- Title(参考訳): ハイブリッド検証復号:投機的復号における検証のアロケートを学ぶ
- Authors: Xin Su, Dawid Majchrowski, Fangyuan Yu, Vanshil Atul Shah, Sebastian Rogawski, Pawel Morkisz, Anahita Bhiwandiwalla, Phillip Howard,
- Abstract要約: Hybrid Verified Decodingは、検証前にキャッシュドラフトが受け入れられた長さを予測する。
分析の結果,キャッシュの素早い生成方法,高利得キャッシュのドラフトがドラフトスペースのごく一部に集中する方法,およびペイオフ誘導選択がドラフト選択の逐次的削除を減らしたことを示す。
- 参考スコア(独自算出の注目度): 8.297861366384156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) generation remains expensive because autoregressive decoding calls the model once for each new token. Speculative decoding reduces this cost by drafting multiple tokens and verifying them with the target model in one step, but its speedup depends on how many drafted tokens are accepted. Parameter-free draft sources can propose long continuations at low cost in structured and agentic workloads, yet a cache match that looks promising at one generation step may have low payoff at the next. We propose Hybrid Verified Decoding, which predicts the accepted length of a cache draft before verification and uses this payoff estimate to choose between cache verification and a model-based drafter. Across three LLMs and sixteen datasets, Hybrid Verified Decoding is especially effective on agentic workflows, where it outperforms EAGLE3 in every setting with a 2.73x average speedup. Our analysis shows how prompt structure creates cache opportunities, how high-payoff cache drafts concentrate in a small part of the draft space, and how payoff-guided selection reduces sequential decoding work, pointing to runtime draft selection as a promising direction for speculative decoding.
- Abstract(参考訳): 自己回帰デコード(autoregressive decoding)は、新しいトークン毎に一度モデルを呼び出すため、大きな言語モデル(LLM)の生成は高価である。
投機的復号化は、複数のトークンをドラフトし、1ステップでターゲットモデルで検証することで、このコストを削減します。
パラメータフリーのドラフトソースは、構造化されたワークロードやエージェント的なワークロードにおいて、低コストで長期継続を提案できる。
本稿では,キャッシュ検証前のキャッシュドラフトの許容長を予測するハイブリッド検証復号法を提案し,キャッシュ検証とモデルベースドラフトラのどちらを選択するかを選択する。
3つのLLMと16のデータセットで、ハイブリット検証デコーディングはエージェントワークフローにおいて特に有効であり、平均2.73倍のスピードアップでEAGLE3を上回っている。
分析の結果,キャッシュの早期作成方法,高給付キャッシュのドラフトがドラフトスペースのごく一部に集中する方法,およびペイオフ誘導選択が逐次復号処理を減らし,実行時のドラフト選択を投機的復号化の有望な方向として挙げた。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。