論文の概要: FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration
- arxiv url: http://arxiv.org/abs/2605.20022v1
- Date: Tue, 19 May 2026 15:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.495192
- Title: FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration
- Title(参考訳): FlexDraft: 注意調整とボーナスガイドによる校正によるフレキシブルな投機的デコーディング
- Authors: Yaojie Zhang, Jianuo Huang, Junlong Ke, Yuhang Han, Yongji Long, Tianchen Zhao, Biqing Qi, Linfeng Zhang,
- Abstract要約: FlexDraftは投機的デコードフレームワークで、3つの重要な設計を通じて様々なバッチサイズに対応します。
Attention Tuningは、マスクトークン上の最後の数層の注意プロジェクタのみをチューニングすることで、ブロック拡散のドラフトを可能にする。
Bonus-guidedは、解決されたボーナストークンに軽量な条件を付け、ドラフトロジットを校正する。
- 参考スコア(独自算出の注目度): 21.05266483397106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates memory-bound LLM inference without quality degradation by using a fast drafter to propose multiple candidate tokens and the target model to verify them in parallel. However, conventional sequential speculative decoding suffers from mutual waiting between drafting and verification, and repeated exchange of intermediate states further increases memory access overhead. Parallel speculative decoding addresses this limitation by performing drafting and verification within a single target forward pass, allowing future drafts to be prepared while current candidates are being verified. Although effective at small batch sizes, existing parallel speculative decoding methods either require costly continual pretraining with quality degradation or suffer from low acceptance rates. More importantly, this paradigm inherently suffers from uncertainty in both the bonus token and the accepted length, leading to draft verification mismatch and causing throughput gains to collapse at large batch sizes. To address these limitations, we introduce FlexDraft, a lossless speculative decoding framework that flexibly adapts to varying batch sizes through three key designs. (1) Attention Tuning enables block diffusion drafting by tuning only the attention projectors of the final few layers on mask tokens, while keeping the autoregressive path frozen to preserve the target distribution and produce high quality drafts with minimal trainable parameters. (2) Bonus-guided Calibration uses a lightweight MLP conditioned on the resolved bonus token to calibrate draft logits, mitigating draft verification mismatch caused by bonus token uncertainty. (3) Flex Decoding dynamically switches between parallel draft and verify at small batch sizes and sequential draft then verify at large batch sizes, and adjusts verification length based on draft confidence to eliminate redundant computation.
- Abstract(参考訳): 投機的復号化は、高速な起草器を用いて複数の候補トークンと対象モデルを並列に検証することにより、品質劣化のないメモリバウンドLCM推論を高速化する。
しかし、従来の逐次投機復号法は、起草と検証の相互待ちに悩まされ、中間状態の繰り返し交換によりメモリアクセスオーバーヘッドが増大する。
並列投機的復号化は、この制限に対処し、単一の目標フォワードパス内でドラフトと検証を実行し、現在の候補が検証されている間に将来のドラフトを準備できるようにする。
小さなバッチサイズでは有効であるが、既存の並列投機的復号法では、品質劣化に伴うコストがかかるか、受け入れ率の低下に悩まされる。
さらに重要なことに、このパラダイムは本質的にボーナストークンと受け入れられた長さの両方の不確実性に悩まされ、ドラフトの検証ミスマッチが発生し、大きなバッチサイズでスループットが低下する。
この制限に対処するために、FlexDraftを紹介します。FlexDraftは、3つの主要な設計を通じて、様々なバッチサイズに柔軟に適応する、損失のない投機的デコーディングフレームワークです。
1)アテンションチューニングにより,マスクトークン上の最後の数層の注意プロジェクタのみを調整し,目標分布を保存し,トレーニング可能なパラメータを最小限に抑えた高品質なドラフトを生成することで,ブロック拡散の草案作成が可能となる。
2) ボーナス誘導校正では, 解決されたボーナストークンに規定された軽量MLPを用いて, ボーナストークンの不確実性に起因するドラフト検証ミスマッチを軽減し, ドラフトロジットの校正を行う。
(3) Flex Decodingは、並列ドラフトを動的に切り替え、小さなバッチサイズとシーケンシャルドラフトを動的に検証し、大きなバッチサイズで検証し、ドラフトの信頼性に基づいて検証期間を調整し、冗長な計算を排除します。
関連論文リスト
- Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding [15.040000425985324]
ツリーベースの投機的復号化は、複数のドラフト候補を並列に検証することで自己回帰生成を加速するが、この利点はスパース・ミックス・オブ・エクササイズ(MoE)モデルでは弱まる。
我々は,MoE投機的復号化のためのトレーニング不要,ハイパーパラメータフリー,ロスレス適応検証手法EVICTを提案する。
EVICTは、目標検証の前にドラフトツリーを切断し、コスト効率の良いプレフィックスのみを保持することで、検証済みのトークンを全てカウントする。
論文 参考訳(メタデータ) (2026-05-01T01:52:01Z) - Towards Joint Quantization and Token Pruning of Vision-Language Models [53.978753457744055]
トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
論文 参考訳(メタデータ) (2026-04-19T08:18:29Z) - SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration [13.454534256560558]
投機的復号化は、大規模言語モデルにおける自己回帰推論を加速するための有望なアプローチとして現れている。
そこで本稿では, 早期終了判定において, 温度アニールによる急激な信頼を抑える, 新たなセルフドラフトフレームワークを提案する。
提案手法は,従来の自己回帰復号法に比べて最大2.33倍の高速化を実現する。
論文 参考訳(メタデータ) (2026-04-14T03:47:04Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Steering Pretrained Drafters during Speculative Decoding [32.75269650141292]
投機的復号化は、生成を高速なドラフトと並列検証に分離することで言語モデル推論を加速する。
主な制限は、トークンの受け入れを制限し、全体的な有効性を低下させるドラフトラ検証ミスアライメントである。
検証器の隠れ状態から計算し,事前訓練されたドラフトアライメントに注入するステアリングベクトルという,軽量な動的アライメント機構を導入する。
提案手法では, 標準サンプリングでは35%, グリージーサンプリングでは22%, 無視可能な計算オーバーヘッドを発生させながら, 許容トークン数を最大35%向上させる。
論文 参考訳(メタデータ) (2025-11-13T00:58:32Z) - SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。
LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。