論文の概要: Make Every Draft Count: Hidden State based Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.21224v1
- Date: Mon, 02 Feb 2026 08:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.660089
- Title: Make Every Draft Count: Hidden State based Speculative Decoding
- Title(参考訳): すべてのドラフト数を作る:隠れた状態ベースの投機的デコード
- Authors: Yuetao Chen, Xuliang Wang, Xinzhou Zheng, Ming Li, Peng Wang, Hong Xu,
- Abstract要約: 廃棄されたドラフトを再利用トークンに変換する新しいシステムを提案する。
私たちの重要な洞察は、隠れた状態レベルで自動回帰予測を実行することです。
我々は、標準的な投機的復号化に対して3.3倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 7.373716645300893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has emerged as a pivotal technique to accelerate LLM inference by employing a lightweight draft model to generate candidate tokens that are subsequently verified by the target model in parallel. However, while this paradigm successfully increases the arithmetic intensity of memory-bound inference, it causes significant compute inefficiency: the majority of draft tokens fail verification and are discarded, resulting in waste of computation. Motivated by the goal of recollecting this wasted computation, we propose a novel system that transforms discarded drafts into reusable tokens. Our key insight is to perform auto-regressive prediction at the hidden states level and postpone the integrating token information after the hidden states generation, so the draft hidden states are not contaminated by incorrect tokens, enabling hidden state reuse. To implement such a system, first we introduce a draft model architecture based on auto-regressive hidden states, which preserves richer semantics than token-based drafters to facilitate draft repurposing. Second, we design an efficient token information injection mechanism that leverages our specialized draft model to construct high-quality draft token trees and enables resampling tokens from verification failures. Third, we eliminate the overhead hidden in our design to further maximize hardware utilization. We conducted extensive evaluations against various baselines, demonstrating up to a 3.3x speedup against standard speculative decoding.
- Abstract(参考訳): 投機的復号化は、軽量なドラフトモデルを用いてLLM推論を高速化する重要な手法として現れ、その後、ターゲットモデルによって並列に検証される候補トークンを生成する。
しかし、このパラダイムはメモリバウンド推論の算術的強度を高めることに成功しているが、これは大きな計算不効率を引き起こす。
この無駄な計算を再現することを目的として,廃棄されたドラフトを再利用可能なトークンに変換する新しいシステムを提案する。
我々の重要な洞察は、隠蔽状態のレベルで自己回帰予測を行い、隠蔽状態の生成後にトークン情報の統合を延期することであり、したがって、ドラフト隠蔽状態は不正なトークンによって汚染されず、隠蔽状態の再利用を可能にする。
このようなシステムを実装するために、まず、自動回帰型隠れ状態に基づくドラフトモデルアーキテクチャを導入し、トークンベースのドラフトよりもリッチなセマンティクスを保存し、ドラフトの再購入を容易にする。
第二に、我々は特殊なドラフトモデルを利用して高品質なトークンツリーを構築し、検証失敗からのトークンの再サンプリングを可能にする効率的なトークン情報注入機構を設計する。
第3に、ハードウェア利用のさらなる最大化のために、設計に隠されたオーバーヘッドを排除します。
各種ベースラインに対して広範囲な評価を行い,標準的な投機的復号化に対して最大3.3倍の高速化を示した。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Block Verification Accelerates Speculative Decoding [23.764655044837113]
投機的復号法は高速モデルを用いて、ターゲットモデルによって並列に検証されるトークンのブロックをドラフトする。
以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。
ブロック全体を共同で検証する単純なドラフト検証アルゴリズムであるBlock Verificationを提案する。
論文 参考訳(メタデータ) (2024-03-15T16:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。