論文の概要: Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance
- arxiv url: http://arxiv.org/abs/2602.05774v1
- Date: Thu, 05 Feb 2026 15:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.005218
- Title: Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance
- Title(参考訳): 変分的投機的復号: 投機的学習からシーケンスアクセプタンスへ
- Authors: Xiandong Zou, Jianshu Li, Jing Huang, Pan Zhou,
- Abstract要約: 投機的復号化は (M)LLM の推論を加速させる。
我々は、潜伏提案(ドラフトパス)に対する変動推論として、ドラフトトレーニングを定式化した変分投機復号法(VSD)を提案する。
- 参考スコア(独自算出の注目度): 23.52673819075993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates inference for (M)LLMs, yet a training-decoding discrepancy persists: while existing methods optimize single greedy trajectories, decoding involves verifying and ranking multiple sampled draft paths. We propose Variational Speculative Decoding (VSD), formulating draft training as variational inference over latent proposals (draft paths). VSD maximizes the marginal probability of target-model acceptance, yielding an ELBO that promotes high-quality latent proposals while minimizing divergence from the target distribution. To enhance quality and reduce variance, we incorporate a path-level utility and optimize via an Expectation-Maximization procedure. The E-step draws MCMC samples from an oracle-filtered posterior, while the M-step maximizes weighted likelihood using Adaptive Rejection Weighting (ARW) and Confidence-Aware Regularization (CAR). Theoretical analysis confirms that VSD increases expected acceptance length and speedup. Extensive experiments across LLMs and MLLMs show that VSD achieves up to a 9.6% speedup over EAGLE-3 and 7.9% over ViSpec, significantly improving decoding efficiency.
- Abstract(参考訳): 投機的復号化は(M)LLMの推論を加速させるが、訓練的復号化は継続する。
本稿では,潜伏提案(ドラフトパス)に対する変分推論として,ドラフトトレーニングを定式化したVSDを提案する。
VSDはターゲットモデル受け入れの限界確率を最大化し、ターゲット分布からの発散を最小限に抑えながら高品質な潜在提案を促進するELBOを生成する。
品質の向上とばらつきの低減を目的として,パスレベルのユーティリティを導入し,期待-最大化手順を用いて最適化する。
E-stepは、オラクルフィルター後部からMCMCサンプルを抽出し、M-stepはAdaptive Rejection Weighting (ARW) とConfidence-Aware Regularization (CAR) を用いて重み付き確率を最大化する。
理論的解析により、VSDは期待される受容長とスピードアップを増大させる。
LLMとMLLMの広範な実験により、VSDはEAGLE-3よりも9.6%、ViSpecより7.9%、復号効率は大幅に向上した。
関連論文リスト
- Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning [3.6588919376939733]
投機的復号(SD)は、小さなドラフトモデルを用いて大言語モデル(LLM)推論を加速する。
トレーニング不要な拡張であるEASD(Entropy-Aware Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-12-29T00:45:19Z) - Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning [41.59855801010565]
大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
論文 参考訳(メタデータ) (2024-05-20T17:59:21Z) - Model Selection for Bayesian Autoencoders [25.619565817793422]
本稿では,オートエンコーダの出力と経験的データ分布との分散スライス-ワッサーシュタイン距離を最適化することを提案する。
我々のBAEは、フレキシブルなディリクレ混合モデルを潜在空間に適合させることにより、生成モデルに変換する。
我々は,教師なしの学習課題に対する膨大な実験的キャンペーンを質的かつ定量的に評価し,先行研究が重要となる小規模データ体制において,我々のアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-11T08:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。