論文の概要: 3-Model Speculative Decoding
- arxiv url: http://arxiv.org/abs/2510.12966v1
- Date: Tue, 14 Oct 2025 20:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.408536
- Title: 3-Model Speculative Decoding
- Title(参考訳): 3モデル投機復号法
- Authors: Sanghyun Byun, Mohanad Odema, Jung Ick Guack, Baisub Lee, Jacob Song, Woo Seong Chung,
- Abstract要約: 投機的復号(SD)は、より小さなドラフトモデルを用いて、大きな言語モデルの推論を加速する。
ドラフトとターゲットの間に中間等化器モデルを挿入するSDの拡張であるピラミド投機復号法(PyramidSD)を導入する。
PyramidSDはファジィな受け入れ基準に基づいて、各ステージで緩和された分散しきい値をサポートし、スループットを向上させる。
- 参考スコア(独自算出の注目度): 0.5274824616260646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative Decoding (SD) accelerates inference in large language models by using a smaller draft model to propose tokens, which are then verified by a larger target model. However, the throughput gains of SD are fundamentally limited by a trade-off between draft model size and token acceptance: smaller draft models generate tokens more quickly but exhibit greater divergence from the target model, resulting in lower acceptance rates and reduced speedups. We introduce Pyramid Speculative Decoding (PyramidSD), an extension of SD that inserts an intermediate qualifier model between the draft and target to bridge the distributional gap in output predictions, allowing smaller model to be used for drafting. This hierarchical decoding strategy improves alignment across models, enabling higher acceptance rates and allowing the use of significantly smaller draft models without sacrificing overall performance. PyramidSD builds on fuzzy acceptance criteria to support relaxed divergence thresholds at each stage, improving throughput. In experiments, PyramidSD achieves up to 1.91x generation speed over standard SD, reaching 124 tokens per second on a consumer GPU (RTX 4090). In small-memory settings with a 1B-parameter draft model and an 8B target model, PyramidSD minimally trades target model quality for improved throughput. Overall, PyramidSD offers a practical approach to enhancing speculative decoding efficiency and can be readily applied to existing inference pipelines.
- Abstract(参考訳): 投機的復号(SD)は、より小さなドラフトモデルを使用して、より大きなターゲットモデルによって検証されるトークンを提案することで、大きな言語モデルの推論を加速する。
しかし、SDのスループットゲインは、ドラフトモデルのサイズとトークンの受け入れの間のトレードオフによって、基本的に制限されている。
SDの拡張であるPyramd Speculative Decoding(PyramidSD)を導入し、ドラフトとターゲットの間に中間等化子モデルを挿入し、出力予測における分布ギャップをブリッジし、より小さなモデルをドラフトに使用できるようにする。
この階層的なデコーディング戦略は、モデル間のアライメントを改善し、より高い受け入れ率を可能にし、全体的なパフォーマンスを犠牲にすることなく、はるかに小さなドラフトモデルを使用することを可能にします。
PyramidSDはファジィな受け入れ基準に基づいて、各ステージで緩和された分散しきい値をサポートし、スループットを向上させる。
実験では、PraamidSDは標準SDよりも最大1.91倍高速で、コンシューマGPU(RTX 4090)で毎秒124トークンに達する。
1Bパラメータのドラフトモデルと8Bのターゲットモデルを備えた小さなメモリ設定では、PraamidSDはターゲットモデルの品質を最小限に交換してスループットを向上させる。
全体として、PraamidSDは投機的復号効率を高めるための実践的なアプローチを提供し、既存の推論パイプラインに容易に適用できる。
関連論文リスト
- Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - SD$^2$: Self-Distilled Sparse Drafters [0.8411424745913134]
本稿では, 自己データ蒸留と微粒化重み空間を有効利用し, 効率的なドラフトモデルを作成する新手法である自己蒸留スパースドロース(SD$2$)を紹介する。
Llama-3.1-70Bのターゲットモデルでは、SD$2$は層式ドラフトモデルよりも1.59$times$高い平均受容長(MAL)を提供する。
1.5Bと3Bの非構造化のスパースドラフトは、エンドツーエンドのレイテンシ改善の観点から、高密度モデルと層分割モデルの両方より優れています。
論文 参考訳(メタデータ) (2025-04-10T18:21:17Z) - ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。
MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。
私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-03-17T08:38:45Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。
また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2024-09-16T18:20:38Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。