論文の概要: SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection
- arxiv url: http://arxiv.org/abs/2605.02888v2
- Date: Tue, 05 May 2026 12:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.350667
- Title: SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection
- Title(参考訳): SpecKV: 圧縮を考慮したガンマ選択による適応的投機的デコーディング
- Authors: Shikhar Shukla,
- Abstract要約: SpecKVは軽量適応型コントローラで、ドラフトモデル自体から抽出した信号を使って投機1歩あたり$を選択できる。
圧縮レジーム間の最適な$$シフトと、ドラフトモデルの信頼性とエントロピーが受容率の強い予測因子であることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates large language model (LLM) inference by using a small draft model to propose candidate tokens that a larger target model verifies. A critical hyperparameter in this process is the speculation length $γ$, which determines how many tokens the draft model proposes per step. Nearly all existing systems use a fixed $γ$ (typically 4), yet empirical evidence suggests that the optimal value varies across task types and, crucially, depends on the compression level applied to the target model. In this paper, we present SpecKV, a lightweight adaptive controller that selects $γ$ per speculation step using signals extracted from the draft model itself. We profile speculative decoding across 4 task categories, 4 speculation lengths, and 3 compression levels (FP16, INT8, NF4), collecting 5,112 step-level records with per-step acceptance rates, draft entropy, and draft confidence. We demonstrate that the optimal $γ$ shifts across compression regimes and that draft model confidence and entropy are strong predictors of acceptance rate (correlation $\approx$ 0.56). SpecKV uses a small MLP trained on these signals to maximize expected tokens per speculation step, achieving a 56.0% improvement over the fixed-$γ=4$ baseline with only 0.34 ms overhead per decision (<0.5% of step time). The improvement is statistically significant (p < 0.001, paired bootstrap test). We release all profiling data, trained models, and notebooks as open-source artifacts.
- Abstract(参考訳): 投機的復号化は、小さなドラフトモデルを用いて、より大きなターゲットモデルが検証する候補トークンを提案することにより、大言語モデル(LLM)推論を加速させる。
このプロセスにおける重要なハイパーパラメータは、投機長$γ$であり、ドラフトモデルがステップ毎に提案するトークンの数を決定する。
既存のシステムのほとんどは固定の$γ$(典型的には4)を使用しているが、最適値がタスクタイプによって異なることを示す実証的な証拠は、ターゲットモデルに適用される圧縮レベルに依存する。
本稿では,投機段階ごとに$γ$を選択する軽量適応制御器SpecKVについて,ドラフトモデル自体から抽出した信号を用いて述べる。
4つのタスクカテゴリ,4つの投機長,3つの圧縮レベル(FP16,INT8,NF4)で投機的復号を行い,ステップ単位の受入率,ドラフトエントロピー,ドラフト信頼度で5,112個のステップレベルレコードを収集した。
圧縮レジーム間の最適な$γ$シフトと、ドラフトモデルの信頼性とエントロピーが受容率の強い予測因子であることを実証する(相関$\approx$ 0.56)。
SpecKVは、これらの信号に基づいて訓練された小さなMLPを使用して、投機ステップ当たりの期待トークンを最大化し、決定毎に0.34msのオーバーヘッドしか持たない固定$γ=4$ベースライン(ステップ時間の0.5%)に対して56.0%の改善を達成している。
改善は統計的に有意である(p < 0.001, paired bootstrap test)。
すべてのプロファイリングデータ、トレーニング済みモデル、ノートブックをオープンソースアーティファクトとしてリリースしています。
関連論文リスト
- When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models [2.064923532131528]
デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。
対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
論文 参考訳(メタデータ) (2026-05-04T09:07:44Z) - Token-Efficient Multimodal Reasoning via Image Prompt Packaging [0.6465251961564605]
我々は、構造化されたテキストを直接イメージに埋め込んで、テキストトークンのオーバーヘッドを減らすプロンプトパラダイムであるImage Prompt Packagingを紹介する。
5つのデータセット、3つのフロンティアモデル、2つのタスクファミリでベンチマークします。
我々はトークン型で貯蓄を分解するコストを導出し、IPPgが35.8~91.0%の推論コスト削減を達成することを示す。
論文 参考訳(メタデータ) (2026-04-02T19:50:59Z) - Global Resolution: Optimal Multi-Draft Speculative Sampling via Convex Minimization [1.2674961594128336]
1つのドラフトモデルから$n$トークンが選択されたとき、最適な投機的サンプリングのためのアルゴリズムを考案する。
提案手法は,生成トークン当たり90%の受信と100ミリ秒未満のオーバーヘッドで,ターゲットモデル分布から無視できないずれを生じさせるマルチドラフトアルゴリズムである。
論文 参考訳(メタデータ) (2025-11-19T21:59:43Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - P$^2$U: Progressive Precision Update For Efficient Model Distribution [2.3349787245442966]
この問題に対処するために,プログレッシブ精度更新(P$2$U)を提案する。
元の高精度モデルを送信する代わりに、P$2$Uは低ビット精度モデルを送信する。
P$2$Uは、精度、帯域幅使用量、レイテンシのトレードオフを一貫して達成する。
論文 参考訳(メタデータ) (2025-06-28T12:47:04Z) - ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。
MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。
私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-03-17T08:38:45Z) - Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment [6.947361774195549]
関連性評価タスクを複数の段階に分割するモジュール分類パイプラインを提案する。
我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%のKrippendorffの$alpha$精度が向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T07:33:39Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。