論文の概要: Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance
- arxiv url: http://arxiv.org/abs/2602.05774v2
- Date: Wed, 11 Feb 2026 09:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:19.928721
- Title: Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance
- Title(参考訳): 変分的投機的復号: 投機的学習からシーケンスアクセプタンスへ
- Authors: Xiandong Zou, Jianshu Li, Jing Huang, Pan Zhou,
- Abstract要約: 投機的復号化は (M)LLM の推論を加速させる。
我々は、潜伏提案(ドラフトパス)に対する変動推論として、ドラフトトレーニングを定式化した変分投機復号法(VSD)を提案する。
- 参考スコア(独自算出の注目度): 23.52673819075993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates inference for (M)LLMs, yet a training-decoding discrepancy persists: while existing methods optimize single greedy trajectories, decoding involves verifying and ranking multiple sampled draft paths. We propose Variational Speculative Decoding (VSD), formulating draft training as variational inference over latent proposals (draft paths). VSD maximizes the marginal probability of target-model acceptance, yielding an ELBO that promotes high-quality latent proposals while minimizing divergence from the target distribution. To enhance quality and reduce variance, we incorporate a path-level utility and optimize via an Expectation-Maximization procedure. The E-step draws MCMC samples from an oracle-filtered posterior, while the M-step maximizes weighted likelihood using Adaptive Rejection Weighting (ARW) and Confidence-Aware Regularization (CAR). Theoretical analysis confirms that VSD increases expected acceptance length and speedup. Extensive experiments across LLMs and MLLMs show that VSD achieves up to a 9.6% speedup over EAGLE-3 and 7.9% over ViSpec, significantly improving decoding efficiency.
- Abstract(参考訳): 投機的復号化は(M)LLMの推論を加速させるが、訓練的復号化は継続する。
本稿では,潜伏提案(ドラフトパス)に対する変分推論として,ドラフトトレーニングを定式化したVSDを提案する。
VSDはターゲットモデル受け入れの限界確率を最大化し、ターゲット分布からの発散を最小限に抑えながら高品質な潜在提案を促進するELBOを生成する。
品質の向上とばらつきの低減を目的として,パスレベルのユーティリティを導入し,期待-最大化手順を用いて最適化する。
E-stepは、オラクルフィルター後部からMCMCサンプルを抽出し、M-stepはAdaptive Rejection Weighting (ARW) とConfidence-Aware Regularization (CAR) を用いて重み付き確率を最大化する。
理論的解析により、VSDは期待される受容長とスピードアップを増大させる。
LLMとMLLMの広範な実験により、VSDはEAGLE-3よりも9.6%、ViSpecより7.9%、復号効率は大幅に向上した。
関連論文リスト
- Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning [3.6588919376939733]
投機的復号(SD)は、小さなドラフトモデルを用いて大言語モデル(LLM)推論を加速する。
トレーニング不要な拡張であるEASD(Entropy-Aware Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-12-29T00:45:19Z) - Martingale Projections and Quantum Decoherence [0.0]
ポーランド空間の和集合上で定義される自己準同相写像の族としてスーパー/サブマーチンゲール射を導入する。
開量子系の理論への応用として、(a)密度行列上のスーパーマーチンゲール射影を示すシステム-環境相互作用がデコヒーレンスをもたらすこと、(b)サブマーチンゲール射影を示すシステム-環境相互作用がシャノン・ウィナー情報を引き起こすことを証明している。
論文 参考訳(メタデータ) (2025-09-23T18:52:56Z) - Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Adapting Large Multimodal Models to Distribution Shifts: The Role of In-Context Learning [41.59855801010565]
大規模マルチモーダルモデル(LMM)は汎用アシスタントとして機能し、異なる分布に対して非常に堅牢である。
それにもかかわらず、特に医療のような専門分野において、ドメイン固有の適応は依然として必要である。
本研究は,LMMの適応性向上のための効果的な代替手段として,文脈内学習(ICL)について検討する。
論文 参考訳(メタデータ) (2024-05-20T17:59:21Z) - Improving Kernel-Based Nonasymptotic Simultaneous Confidence Bands [0.0]
本報告では,非漸近的かつ非漸近的保証を伴う非パラメトリック同時信頼バンドの構築問題について検討する。
このアプローチは、パーリー・ウィーナー核がヒルベルト空間を再現する理論に基づいている。
論文 参考訳(メタデータ) (2024-01-28T22:43:33Z) - Almost synchronous correlations and Tomita-Takesaki theory [0.0]
コーンズの分布補題を一般化する。
そして、ビディックに従えば、非局所ゲームに対する無限次元の量子戦略がもたらされる。
論文 参考訳(メタデータ) (2023-07-16T19:02:08Z) - Gauge-equivariant flow models for sampling in lattice field theories
with pseudofermions [51.52945471576731]
本研究は,フェルミオン行列式の推定器として擬フェルミオンを用いたフェルミオン格子場理論におけるフローベースサンプリングのためのゲージ不変アーキテクチャを提案する。
これは最先端の格子場理論計算におけるデフォルトのアプローチであり、QCDのような理論へのフローモデルの実践的応用に欠かせない。
論文 参考訳(メタデータ) (2022-07-18T21:13:34Z) - Intrinsic decoherence for the displaced harmonic oscillator [77.34726150561087]
固有デコヒーレンスを記述するミルバーン方程式の完全解を用いる。
初期コヒーレント状態と圧縮状態における位置定位値と数演算子の期待値を算出する。
論文 参考訳(メタデータ) (2021-12-06T03:15:43Z) - Intrinsic decoherence dynamics in the three-coupled harmonic oscillators
interaction [77.34726150561087]
完備方程式、すなわちリンドブラッド形式にたどり着くのに使われた通常の二階近似を超えた明示的な解を与える。
論文 参考訳(メタデータ) (2021-08-01T02:36:23Z) - Conformal field theory from lattice fermions [77.34726150561087]
1+1次元の格子フェルミオンで与えられる共形場理論の厳密な格子近似を提供する。
これらの結果が共形場理論の量子シミュレーションに関連する明らかな誤差推定にどのように結びつくかを示す。
論文 参考訳(メタデータ) (2021-07-29T08:54:07Z) - Model Selection for Bayesian Autoencoders [25.619565817793422]
本稿では,オートエンコーダの出力と経験的データ分布との分散スライス-ワッサーシュタイン距離を最適化することを提案する。
我々のBAEは、フレキシブルなディリクレ混合モデルを潜在空間に適合させることにより、生成モデルに変換する。
我々は,教師なしの学習課題に対する膨大な実験的キャンペーンを質的かつ定量的に評価し,先行研究が重要となる小規模データ体制において,我々のアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-11T08:55:00Z) - Nishimori meets Bethe: a spectral method for node classification in
sparse weighted graphs [53.13327158427103]
本稿では,分布pをパラメトリ化する西森温度と,分布pに従ってエッジ重みが分布するランダムエルドス・レーニーグラフ上のベーテ自由エネルギーの関係について述べる。
重み付きグラフのBethe Hessian行列の固有値から西森温度を正確に推定する数値計算法を提案する。
論文 参考訳(メタデータ) (2021-03-05T09:45:56Z) - Proof of the Contiguity Conjecture and Lognormal Limit for the Symmetric
Perceptron [21.356438315715888]
我々は、ニューラルネットワークの単純なモデルである対称バイナリパーセプトロンモデルを検討する。
このモデルのためのいくつかの予想を確立する。
この証明手法は,小さなグラフ条件付け手法の密な反部分に依存する。
論文 参考訳(メタデータ) (2021-02-25T18:39:08Z) - Composing Normalizing Flows for Inverse Problems [89.06155049265641]
本稿では,2つの流れモデルの合成として,対象条件を推定する近似推論フレームワークを提案する。
本手法は,様々な逆問題に対して評価し,不確実性のある高品質な試料を作製することを示した。
論文 参考訳(メタデータ) (2020-02-26T19:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。