Fugu-MT 論文翻訳(概要): PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length

論文の概要: PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length

arxiv url: http://arxiv.org/abs/2602.01274v1
Date: Sun, 01 Feb 2026 15:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-03 19:28:33.689058
Title: PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length
Title（参考訳）: PACER: 適応長による投機的デコードのためのブロックワイズ事前検証
Authors: Situo Zhang, Yifan Zhang, Zichen Zhu, Hankun Wang, Da Ma, Danyang Zhang, Lu Chen, Kai Yu,
Abstract要約: 投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
参考スコア（独自算出の注目度）: 21.738896310075678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding (SD) is a powerful technique for accelerating the inference process of large language models (LLMs) without sacrificing accuracy. Typically, SD employs a small draft model to generate a fixed number of draft tokens, which are then verified in parallel by the target model. However, our experiments reveal that the optimal draft length varies significantly across different decoding steps. This variation suggests that using a fixed draft length limits the potential for further improvements in decoding speed. To address this challenge, we propose Pacer, a novel approach that dynamically controls draft length using a lightweight, trainable pre-verification layer. This layer pre-verifies draft tokens blockwise before they are sent to the target model, allowing the draft model to stop token generation if the blockwise pre-verification fails. We implement Pacer on multiple SD model pairs and evaluate its performance across various benchmarks. Our results demonstrate that Pacer achieves up to 2.66x Speedup over autoregressive decoding and consistently outperforms standard speculative decoding. Furthermore, when integrated with Ouroboros, Pacer attains up to 3.09x Speedup.
Abstract（参考訳）: 投機的復号化(SD)は,大規模言語モデル(LLM)の推論過程を,精度を犠牲にすることなく高速化する強力な手法である。通常、SDは小さなドラフトモデルを使用して固定数のドラフトトークンを生成し、ターゲットモデルによって並列に検証される。しかし, 実験により, 最適な草案長は, 異なる復号ステップで大きく異なることが明らかとなった。この変異は、固定されたドラフト長を使用することで、復号速度がさらに向上する可能性を制限することを示唆している。この課題に対処するために,軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。このレイヤは、ターゲットモデルに送信される前に、ドラフトトークンをブロックワイズで事前検証し、ブロックワイズ事前検証が失敗した場合、ドラフトモデルでトークンの生成を停止させる。複数のSDモデルペアにPacerを実装し、その性能を様々なベンチマークで評価する。以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。さらに、Ouroborosと統合すると、Pacerは最大3.09倍のスピードアップを達成した。

関連論文リスト

Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文参考訳（メタデータ） (2025-09-19T04:51:41Z)
CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。 CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation [4.031603850949324]
本稿では,自動回帰ドラフトモデルの並列ドラフトモデルへの低コストな適応を可能にする新しい投機的復号化手法を提案する。提案した条件付きドロップトークン法は,ドラフトモデルのトレーニング効率を3倍に向上させることができる。最適化された推論フレームワークでは、PARDはLLaMA3.1-8B推論を4.08倍高速化し、毎秒311.5トークンを達成する。
論文参考訳（メタデータ） (2025-04-23T12:27:43Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$sim$2.62times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。 LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。