論文の概要: SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification
- arxiv url: http://arxiv.org/abs/2512.02337v1
- Date: Tue, 02 Dec 2025 02:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.683724
- Title: SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification
- Title(参考訳): SpecPV:部分的検証による長期生成のための自己投機的復号化の改善
- Authors: Zhendong Tan, Xingjun Zhang, Chaoyi Hu, Junjie Peng, Kun Xia,
- Abstract要約: 投機的復号化は、生成を加速するための最も直接的で効果的なアプローチの1つである。
部分鍵値状態を用いた高速な検証を行う自己投機的復号法であるSpecPVを導入する。
LLaMA-3.1-8B-Instruct や Qwen3-Series など,複数の長文ベンチマークやモデルで SpecPV を検証する。
- 参考スコア(独自算出の注目度): 11.366541829206199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing demands from tasks like code generation, deep reasoning, and long-document understanding have made long-context generation a crucial capability for large language models (LLMs). Speculative decoding is one of the most direct and effective approaches for accelerating generation. It follows a draft-verify paradigm, where a lightweight draft model proposes several candidate tokens and the target model verifies them. However, we find that as the context length grows, verification becomes the dominant bottleneck. To further accelerate speculative decoding in long-context generation, we introduce SpecPV, a self-speculative decoding approach that performs fast verification using partial key-value states (KV) and periodically applies full verification to eliminate accumulated errors. We validate SpecPV across multiple long-context benchmarks and models, including LLaMA-3.1-8B-Instruct and Qwen3-series. Experimental results show that SpecPV achieves up to 6x decoding speedup over standard autoregressive decoding with minor degradation.
- Abstract(参考訳): コード生成、深い推論、長いドキュメント理解といったタスクからの要求が高まり、長いコンテキスト生成が大きな言語モデル(LLM)にとって重要な機能になった。
投機的復号化は、生成を加速するための最も直接的で効果的なアプローチの1つである。
軽量なドラフトモデルがいくつかの候補トークンを提案し、ターゲットモデルがそれらを検証する、ドラフト検証パラダイムに従っている。
しかし、文脈の長さが大きくなるにつれて、検証が主要なボトルネックとなる。
長文生成における投機的復号化をさらに加速するため,部分鍵値状態(KV)を用いて高速な検証を行い,周期的に完全検証を適用して累積誤差を除去する自己投機的復号法であるSpecPVを導入する。
LLaMA-3.1-8B-Instruct や Qwen3-Series など,複数の長文ベンチマークやモデルで SpecPV を検証する。
実験結果から,SpecPVは劣化の少ない標準自己回帰復号よりも最大6倍の復号化を実現していることがわかった。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [11.225649178057695]
SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。
長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。
SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
論文 参考訳(メタデータ) (2025-05-27T06:30:00Z) - PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。
PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-02T20:29:31Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。