論文の概要: HiSpec: Hierarchical Speculative Decoding for LLMs
- arxiv url: http://arxiv.org/abs/2510.01336v1
- Date: Wed, 01 Oct 2025 18:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.809373
- Title: HiSpec: Hierarchical Speculative Decoding for LLMs
- Title(参考訳): HiSpec: LLMの階層的投機的デコーディング
- Authors: Avinash Kumar, Sujay Sanghavi, Poulami Das,
- Abstract要約: 低オーバーヘッド中間検証のために$textitearly-exit(EE)モデルを利用する投機的復号化フレームワークを提案する。
HiSpecは平均1.28$times$、平均2.01$times$をベースラインのシングルレイヤの推測と比較して改善している。
- 参考スコア(独自算出の注目度): 15.347747465564458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by using a smaller draft model to speculate tokens that a larger target model verifies. Verification is often the bottleneck (e.g. verification is $4\times$ slower than token generation when a 3B model speculates for a 70B target model), but most prior works focus only on accelerating drafting. $\textit{``Intermediate"}$ verification reduces verification time by discarding inaccurate draft tokens early, but existing methods incur substantial training overheads in incorporating the intermediate verifier, increase the memory footprint to orchestrate the intermediate verification step, and compromise accuracy by relying on approximate heuristics. We propose $\underline{\textit{Hi}}\textit{erarchical }\underline{\textit{Spec}}\textit{ulative Decoding (HiSpec)}$, a framework for high-throughput speculative decoding that exploits $\textit{early-exit (EE) models}$ for low-overhead intermediate verification. EE models allow tokens to exit early by skipping layer traversal and are explicitly trained so that hidden states at selected layers can be interpreted, making them uniquely suited for intermediate verification without drastically increasing compute and memory overheads. To improve resource-efficiency even further, we design a methodology that enables HiSpec to re-use key-value caches and hidden states between the draft, intermediate verifier, and target models. To maintain accuracy, HiSpec periodically validates the draft tokens accepted by the intermediate verifier against the target model. Our evaluations using various representative benchmarks and models show that HiSpec improves throughput by 1.28$\times$ on average and by up to 2.01$\times$ compared to the baseline single-layer speculation without compromising accuracy.
- Abstract(参考訳): 投機的復号化は、より小さなドラフトモデルを用いて、より大きなターゲットモデルが検証するトークンを推測することにより、LCM推論を加速させる。
検証はボトルネックになることが多い(例えば、3Bモデルが70Bターゲットモデルを想定している場合、トークン生成よりも4\times$遅い)。
検証は、不正確なドラフトトークンを早期に破棄することで検証時間を短縮するが、既存のメソッドは中間検証を組み込む際にかなりのトレーニングオーバーヘッドを発生させ、中間検証ステップをオーケストレーションするためにメモリフットプリントを増やし、近似ヒューリスティックスに頼ることによって精度を損なう。
低オーバーヘッド中間検証のために$\textit{early-exit (EE)モデルを利用する高スループットな投機的デコーディングのためのフレームワークである$\underline{\textit{Hi}}\textit{erarchical }\underline{\textit{Spec}}\textit{ulative Decoding (HiSpec)}$を提案する。
EEモデルは、レイヤトラバーサルをスキップすることでトークンを早期に終了させ、選択されたレイヤの隠れた状態を解釈できるように明示的にトレーニングされ、計算とメモリのオーバーヘッドを大幅に増加させることなく、中間検証に一意に適合する。
リソース効率をさらに向上するため、HiSpecは、ドラフト、中間検証、ターゲットモデル間でキー値キャッシュと隠蔽状態を再利用できる方法論を設計する。
精度を維持するために、HiSpecは、中間検証者によって受け入れられたドラフトトークンを、ターゲットモデルに対して定期的に検証する。
様々な代表ベンチマークとモデルを用いて評価したところ,HiSpecは平均1.28$\times$,最大2.01$\times$のスループット向上を実現している。
関連論文リスト
- Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation [15.04977852652768]
投機的復号法(SD)はLLM推論加速のための有望な手法である。
LogitSpecは、最後のトークンのロジットが次のトークンを予測できるだけでなく、次のトークンを推測できるという観察によって動機付けられている。
LogitSpecは最大2.61$times$ Speedupと3.28のデコードステップで受け入れられたトークンを達成できる。
論文 参考訳(メタデータ) (2025-07-02T08:08:30Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - AutoJudge: Judge Decoding Without Manual Annotation [13.451750613294054]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化する手法である。
提案手法は,ターゲットモデルとドラフトモデルとのミスマッチのどれを修正すべきかを,半グレディな探索アルゴリズムに頼っている。
論文 参考訳(メタデータ) (2025-04-28T17:59:28Z) - DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。
Delは、全体的なスピードアップを$2.16times$$sim$2.62times$ over vanilla auto-regressive decoding で達成している。
論文 参考訳(メタデータ) (2025-04-08T01:12:59Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。