論文の概要: Parallel Prefix Verification for Speculative Generation
- arxiv url: http://arxiv.org/abs/2605.04263v1
- Date: Tue, 05 May 2026 19:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.528172
- Title: Parallel Prefix Verification for Speculative Generation
- Title(参考訳): 投機生成のための並列プリフィックス検証
- Authors: Yuncheng Yao, Yuxuan Xia, Shengjie Wang, Danyang Zhuo,
- Abstract要約: PARSE (Parallel pRefix Speculative Engine) は、大規模言語モデル(LLM)推論を高速化する投機生成フレームワークである。
本稿では,大言語モデル(LLM)推論を,意味レベルでプレフィックス検証を並列化することによって高速化する投機的生成フレームワークであるPARSEを紹介する。
- 参考スコア(独自算出の注目度): 10.689879928713564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PARSE (PArallel pRefix Speculative Engine), a speculative generation framework that accelerates large language model (LLM) inference by parallelizing prefix verification on a semantic level. Existing speculative decoding methods are fundamentally limited by token-level equivalence: the target model must verify each token, leading to short acceptance lengths and modest speedups. Moving to semantic or segment-level verification can substantially increase acceptance granularity, but prior approaches rely on sequential verification, introducing significant overhead and limiting practical gains. PARSE introduces parallel prefix verification, enabling semantic-level verification without sequential checks. Given a full draft from a draft model, the target model evaluates correctness across multiple prefixes in a single forward pass using a custom attention mask, directly identifying the maximal valid prefix. This eliminates sequential segment verification, and makes verification compute-efficient. PARSE is orthogonal to token-level speculative decoding and can be composed with it for additional gains. Across models and benchmarks, PARSE delivers $1.25\times$ to $4.3\times$ throughput gain over the target model, and $1.6\times$ to $4.5\times$ when composed with EAGLE-3, all with negligible accuracy degradation. This demonstrates parallel prefix verification as an effective, general approach to accelerating LLM inference.
- Abstract(参考訳): 意味レベルでプレフィックス検証を並列化することにより,大規模言語モデル(LLM)推論を高速化する投機生成フレームワークであるPARSE(Parallel pRefix Speculative Engine)を紹介する。
既存の投機的復号法はトークンレベルの等価性によって基本的に制限されている。
セマンティックやセグメントレベルの検証への移行は、受容の粒度を大幅に増加させるが、以前のアプローチはシーケンシャルな検証に依存しており、オーバーヘッドが大きくなり、実用的なゲインが制限される。
PARSEは並列プレフィックス検証を導入し、シーケンシャルチェックなしでセマンティックレベルの検証を可能にする。
ドラフトモデルからの完全なドラフトが与えられた場合、ターゲットモデルは、カスタムアテンションマスクを使用して、単一のフォワードパス内の複数のプレフィックス間の正当性を評価し、最大有効プレフィックスを直接識別する。
これにより、逐次セグメント検証が不要になり、検証の効率が向上する。
PARSEはトークンレベルの投機的復号法と直交しており、追加の利得のために組み合わせることができる。
モデルとベンチマーク全体で、PARSEはターゲットモデルよりも1.25\times$4.3\times$スループットゲイン、ERGLE-3で構成された場合1.6\times$ to4.5\times$を提供する。
このことは、LLM推論を加速するための効果的で一般的なアプローチとして、並列プレフィックス検証が示される。
関連論文リスト
- Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding [15.040000425985324]
ツリーベースの投機的復号化は、複数のドラフト候補を並列に検証することで自己回帰生成を加速するが、この利点はスパース・ミックス・オブ・エクササイズ(MoE)モデルでは弱まる。
我々は,MoE投機的復号化のためのトレーニング不要,ハイパーパラメータフリー,ロスレス適応検証手法EVICTを提案する。
EVICTは、目標検証の前にドラフトツリーを切断し、コスト効率の良いプレフィックスのみを保持することで、検証済みのトークンを全てカウントする。
論文 参考訳(メタデータ) (2026-05-01T01:52:01Z) - Multi-Token Prediction via Self-Distillation [73.81494481537636]
我々は,事前訓練された自己回帰言語モデルを,スローシングルの次のトークン予測モデルから高速なスタンドアロンマルチトークン予測モデルに変換するための新しいアプローチを検討する。
GSM8Kでは,単一トークン復号性能と比較して平均3倍以上の高速な復号化が可能なモデルを生成する。
論文 参考訳(メタデータ) (2026-02-05T18:54:48Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - HiSpec: Hierarchical Speculative Decoding for LLMs [15.347747465564458]
低オーバーヘッド中間検証のために$textitearly-exit(EE)モデルを利用する投機的復号化フレームワークを提案する。
HiSpecは平均1.28$times$、平均2.01$times$をベースラインのシングルレイヤの推測と比較して改善している。
論文 参考訳(メタデータ) (2025-10-01T18:04:14Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。
本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。
提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-05-18T12:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。