Fugu-MT 論文翻訳(概要): SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification

論文の概要: SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification

arxiv url: http://arxiv.org/abs/2512.02337v1
Date: Tue, 02 Dec 2025 02:15:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-03 21:04:45.683724
Title: SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification
Title（参考訳）: SpecPV:部分的検証による長期生成のための自己投機的復号化の改善
Authors: Zhendong Tan, Xingjun Zhang, Chaoyi Hu, Junjie Peng, Kun Xia,
Abstract要約: 投機的復号化は、生成を加速するための最も直接的で効果的なアプローチの1つである。部分鍵値状態を用いた高速な検証を行う自己投機的復号法であるSpecPVを導入する。 LLaMA-3.1-8B-Instruct や Qwen3-Series など,複数の長文ベンチマークやモデルで SpecPV を検証する。
参考スコア（独自算出の注目度）: 11.366541829206199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Growing demands from tasks like code generation, deep reasoning, and long-document understanding have made long-context generation a crucial capability for large language models (LLMs). Speculative decoding is one of the most direct and effective approaches for accelerating generation. It follows a draft-verify paradigm, where a lightweight draft model proposes several candidate tokens and the target model verifies them. However, we find that as the context length grows, verification becomes the dominant bottleneck. To further accelerate speculative decoding in long-context generation, we introduce SpecPV, a self-speculative decoding approach that performs fast verification using partial key-value states (KV) and periodically applies full verification to eliminate accumulated errors. We validate SpecPV across multiple long-context benchmarks and models, including LLaMA-3.1-8B-Instruct and Qwen3-series. Experimental results show that SpecPV achieves up to 6x decoding speedup over standard autoregressive decoding with minor degradation.
Abstract（参考訳）: コード生成、深い推論、長いドキュメント理解といったタスクからの要求が高まり、長いコンテキスト生成が大きな言語モデル(LLM)にとって重要な機能になった。投機的復号化は、生成を加速するための最も直接的で効果的なアプローチの1つである。軽量なドラフトモデルがいくつかの候補トークンを提案し、ターゲットモデルがそれらを検証する、ドラフト検証パラダイムに従っている。しかし、文脈の長さが大きくなるにつれて、検証が主要なボトルネックとなる。長文生成における投機的復号化をさらに加速するため,部分鍵値状態(KV)を用いて高速な検証を行い,周期的に完全検証を適用して累積誤差を除去する自己投機的復号法であるSpecPVを導入する。 LLaMA-3.1-8B-Instruct や Qwen3-Series など,複数の長文ベンチマークやモデルで SpecPV を検証する。実験結果から,SpecPVは劣化の少ない標準自己回帰復号よりも最大6倍の復号化を実現していることがわかった。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。 FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文参考訳（メタデータ） (2025-09-30T21:28:04Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [11.225649178057695]
SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。 SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
論文参考訳（メタデータ） (2025-05-27T06:30:00Z)
PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。 PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-05-02T20:29:31Z)
LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。 LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。