論文の概要: Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios
- arxiv url: http://arxiv.org/abs/2511.20340v1
- Date: Tue, 25 Nov 2025 14:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.499622
- Title: Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios
- Title(参考訳): LLM投機的デコーディングのスケールアップ:大規模シナリオにおける非自己回帰予測
- Authors: Luohe Shi, Zuchao Li, Lefei Zhang, Baoyuan Qi, Guoming Liu, Hai Zhao,
- Abstract要約: 本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
- 参考スコア(独自算出の注目度): 76.85739138203014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by utilizing otherwise idle computational resources during memory-to-chip data transfer. Current speculative decoding methods typically assume a considerable amount of available computing power, then generate a complex and massive draft tree using a small autoregressive language model to improve overall prediction accuracy. However, methods like batching have been widely applied in mainstream model inference systems as a superior alternative to speculative decoding, as they compress the available idle computing power. Therefore, performing speculative decoding with low verification resources and low scheduling costs has become an important research problem. We believe that more capable models that allow for parallel generation on draft sequences are what we truly need. Recognizing the fundamental nature of draft models to only generate sequences of limited length, we propose SpecFormer, a novel architecture that integrates unidirectional and bidirectional attention mechanisms. SpecFormer combines the autoregressive model's ability to extract information from the entire input sequence with the parallel generation benefits of non-autoregressive models. This design eliminates the reliance on large prefix trees and achieves consistent acceleration, even in large-batch scenarios. Through lossless speculative decoding experiments across models of various scales, we demonstrate that SpecFormer sets a new standard for scaling LLM inference with lower training demands and reduced computational costs.
- Abstract(参考訳): 投機的復号化は、メモリ・ツー・チップデータ転送中にアイドルな計算資源を利用することで、LCM推論を加速させる。
現在の投機的復号法は、通常、利用可能な計算能力のかなりの量を仮定し、小さな自己回帰言語モデルを用いて複雑で大規模なドラフトツリーを生成し、全体的な予測精度を向上させる。
しかし、バッチ処理のような手法は、利用可能なアイドルコンピューティングパワーを圧縮するため、投機的復号法よりも優れた代替として主流のモデル推論システムに広く適用されてきた。
そのため、低い検証資源と低いスケジューリングコストで投機的復号化を行うことが重要な研究課題となっている。
ドラフトシーケンスの並列生成を可能にする、より有能なモデルが、本当に必要なものである、と私たちは信じています。
限られた長さのシーケンスのみを生成するためのドラフトモデルの基本的な性質を認識し,一方向および双方向の注意機構を統合した新しいアーキテクチャであるSpecFormerを提案する。
SpecFormerは、自動回帰モデルの入力シーケンス全体から情報を抽出する能力と、非自己回帰モデルの並列生成の利点を組み合わせる。
この設計は大きな接頭辞木への依存を排除し、大きなバッチシナリオにおいても一貫した加速を実現する。
様々なスケールのモデルの損失のない投機的復号化実験を通じて、SpecFormer が LLM 推論をより少ないトレーニング要求と計算コストでスケールするための新しい標準を設定できることを実証した。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。
FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文 参考訳(メタデータ) (2025-09-30T21:28:04Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。