論文の概要: SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding
- arxiv url: http://arxiv.org/abs/2604.25925v1
- Date: Wed, 01 Apr 2026 11:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.224255
- Title: SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding
- Title(参考訳): SpecTr-GBV: 投機的復号化を加速するマルチドラフトブロック検証
- Authors: Yijun Lin, Jinhao Sheng, Qingyue Cai, Feng Zhou,
- Abstract要約: マルチドラフトとグレディブロックの検証を単一のフレームワークに統合する新しいSD手法であるSpecTr-GBVを提案する。
理論的には、SpecTr-GBVが、ドラフト生成のフレームワーク内で物理的に達成可能な最適な受容長を達成することを証明している。
本手法は,出力品質を保ちながら,優れた高速化とブロック効率の向上を実現する。
- 参考スコア(独自算出の注目度): 5.247507695462136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language models suffer from high inference latency due to their sequential decoding nature. Speculative decoding (SD) mitigates this by employing a lightweight draft model to propose candidate tokens, which are selectively verified by a larger target model. While existing methods either adopt multi-draft strategies to increase acceptance rates or block verification techniques to jointly verify multiple tokens, they remain limited by treating these improvements in isolation. In this work, we propose SpecTr-GBV, a novel SD method that unifies multi-draft and greedy block verification (GBV) into a single framework. By formulating the verification step as an optimal transport problem over draft and target token blocks, SpecTr-GBV improves both theoretical efficiency and empirical performance. We theoretically prove that SpecTr-GBV achieves the optimal expected acceptance length physically attainable within the framework of i.i.d. draft generation, and this bound improves as the number of drafts increases. Empirically, we evaluate SpecTr-GBV across five datasets and four baselines. Our method achieves superior speedup and significantly higher block efficiency while preserving output quality. In addition, we perform comprehensive ablation studies to evaluate the impact of various hyperparameters in the model.
- Abstract(参考訳): 自動回帰言語モデルは、シーケンシャルな復号性のために高い推論遅延に悩まされる。
投機的復号(SD)は、より大きなターゲットモデルによって選択的に検証される候補トークンを提案するために、軽量なドラフトモデルを用いてこれを緩和する。
既存の手法では、受け入れ率を上げるためのマルチドラフト戦略を採用するか、複数のトークンを共同で検証するための検証テクニックをブロックするが、これらの改善を分離して扱うことで制限される。
本研究では,マルチドラフトとgreedyブロック検証(GBV)を単一のフレームワークに統合する新しいSD手法であるSpecTr-GBVを提案する。
検証ステップをドラフトおよびターゲットトークンブロック上の最適輸送問題として定式化することにより、SpecTr-GBVは理論的効率と経験的性能の両方を改善する。
理論的には、SpecTr-GBVは、ドラフト生成のフレームワーク内で物理的に達成可能な最適受理長を達成でき、この境界はドラフトの数が増加するにつれて改善される。
実験により、5つのデータセットと4つのベースラインにわたるSpecTr-GBVを評価した。
提案手法は,出力品質を保ちながら,優れた高速化とブロック効率の向上を実現する。
さらに、モデルにおける様々なハイパーパラメータの影響を評価するために、包括的アブレーション研究を行った。
関連論文リスト
- DIVERSED: Relaxed Speculative Decoding via Dynamic Ensemble Verification [29.426184837710952]
投機的復号化は,複数のトークンを並列に起草することで,大規模言語モデルの推論を高速化する有効な手法である。
生成品質を保ちながら時間効率を向上させる緩やかな検証フレームワークである動的検証緩和投機復号法(DIVERSED)を提案する。
本研究では,DIVERSEDが標準的な投機的復号法に比べてかなり高い推論効率を実現することを示す。
論文 参考訳(メタデータ) (2026-04-08T21:52:32Z) - TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs [14.030784220154151]
本研究では,大規模視覚言語モデルに対するTABED(Test-time Adaptive Batched Ensemble Drafting)を提案する。
TABEDは、SD設定で利用可能な過去の真実からの逸脱を利用して、バッチ推論によって得られた複数のドラフトをアンサンブルする。
自動回帰復号法よりも1.74倍のロバストなウォールタイム・スピードアップを実現し、単一起草法よりも5%改善した。
論文 参考訳(メタデータ) (2026-01-28T08:16:57Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding [76.23719557942917]
TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。
我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
論文 参考訳(メタデータ) (2025-02-21T04:19:24Z) - Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。
また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2024-09-16T18:20:38Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。