論文の概要: Faster LLM Inference via Sequential Monte Carlo
- arxiv url: http://arxiv.org/abs/2604.15672v1
- Date: Fri, 17 Apr 2026 03:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.729815
- Title: Faster LLM Inference via Sequential Monte Carlo
- Title(参考訳): シークエンシャルモンテカルロによる高速LLM推論
- Authors: Yahya Emara, Mauricio Barba da Costa, Chi-Chih Chang, Cameron Freer, Tim Vieira, Ryan Cotterell, Mohamed S. Abdelfattah,
- Abstract要約: 連続モンテカルロ投機復号法(SMC-SD)を導入する。
SMC-SDはトークンレベルの拒絶を、ドラフト粒子の集団に対する重み付け再サンプリングに置き換える。
投機的復号化よりも2.36倍のスピードアップ、自動回帰復号化より5.2倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 47.46537448240707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) accelerates language model inference by drafting tokens from a cheap proposal model and verifying them against an expensive target model via rejection sampling. Because rejection truncates the draft block at the first error, throughput degrades when draft and target diverge. Rather than rejecting draft tokens outright, we propose to reweight them. To this end, we introduce sequential Monte Carlo speculative decoding (SMC-SD), which replaces token-level rejection with importance-weighted resampling over a population of draft particles. SMC-SD is a principled approximate inference scheme that trades exactness for additional speed, while preserving theoretical bounds on its per-step approximation error. Because LLM inference is memory bandwidth-bound, the arithmetic needed to draft particles and to score them in parallel comes nearly for free -- SMC-SD uses idle compute to turn verification into a vectorized, fixed-size operation with no rollback. Empirically, SMC-SD achieves 2.36x speed-up over speculative decoding and a 5.2x speed-up over autoregressive decoding, while remaining within 3% of the target model's accuracy on reasoning, instruction-following, and coding benchmarks.
- Abstract(参考訳): 投機的復号(SD)は、安価な提案モデルからトークンを起草し、拒絶サンプリングによって高価なターゲットモデルに対して検証することにより、言語モデル推論を加速する。
拒否は最初のエラーでドラフトブロックを切断するため、スループットはドラフトとターゲットの分岐時に低下する。
ドラフトトークンをそのまま拒否するのではなく、再重み付けを提案する。
この目的のために、トークンレベルの拒絶を、ドラフト粒子の集団に対する重み付け再サンプリングに置き換えるシーケンシャルなモンテカルロ投機的復号法(SMC-SD)を導入する。
SMC-SDは、ステップごとの近似誤差の理論的境界を保ちながら、さらなる速度で正確性を交換する原理的な近似推論スキームである。
LLM推論はメモリ帯域幅に制限があるため、パーティクルを起草し、それらを並列にスコアするために必要な算術は、ほとんど無料で提供される。
実証的には、SMC-SDは投機的復号化よりも2.36倍のスピードアップと自動回帰復号化よりも5.2倍のスピードアップを達成するが、推論、命令追従、符号化ベンチマークでは、目標モデルの精度の3%以内に留まる。
関連論文リスト
- Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference [27.59556627479635]
Calibrated Speculative Decodingは、標準検証によって破棄された有効なトークンを復元する。
Online Correction Memory は歴史的拒絶を集約し、繰り返し発散パターンを救助候補者として提案する。
Semantic Consistency Gatingは、正確なトークンマッチングの代わりに確率比を用いて候補許容性を検証する。
論文 参考訳(メタデータ) (2026-04-15T09:01:54Z) - Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding [13.249778063956917]
投機的復号化は、トークンを軽量なドラフトモデルで提案することにより、大きな言語モデル推論を加速する。
この研究は、ドラフトトークンとターゲットモデルの予測分布をマッチングする新しいアプローチであるDropMatchを導入している。
複数のベンチマークで実験したところ、我々のアプローチは、競争力のあるタスク性能を維持しながら、受け入れ期間を延ばすことが示されている。
論文 参考訳(メタデータ) (2026-02-11T04:53:33Z) - PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism [19.7914286780195]
textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-01-09T04:35:21Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference [11.957170239588535]
投機的復号化は、ドラフトモデルを使用して推測を加速する。
事前の方法は、ドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
論文 参考訳(メタデータ) (2025-10-15T05:22:57Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。