論文の概要: Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding
- arxiv url: http://arxiv.org/abs/2512.01278v1
- Date: Mon, 01 Dec 2025 04:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.68783
- Title: Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding
- Title(参考訳): 疎自己投機的復号化による大規模推論モデルの高速化
- Authors: Yilong Zhao, Jiaming Tang, Kan Zhu, Zihao Ye, Chi-Chih Chang, Chaofan Lin, Jongseok Park, Guangxuan Xiao, Mohamed S. Abdelfattah, Mingyu Gao, Baris Kasikci, Song Han, Ion Stoica,
- Abstract要約: SparseSpecは、ドラフトとターゲットモデルと同じモデルを再利用する投機的復号化フレームワークである。
SparseSpecは、新しいスパースアテンションメカニズムであるPillarAttnをドラフトモデルとして特徴付け、検証段階からの情報を再利用することで、クリティカルトークンを正確に選択する。
さまざまなモデルとデータセットにわたって、SparseSpecは最先端のソリューションより優れており、スループットは最大2.13倍である。
- 参考スコア(独自算出の注目度): 39.863506456723655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models have demonstrated remarkable capabilities on challenging tasks by generating elaborate chain-of-thought (CoT) solutions. However, such lengthy generation shifts the inference bottleneck from compute-bound to memory-bound. To generate each token, the model applies full attention to all previously generated tokens, requiring memory access to an increasingly large KV-Cache. Consequently, longer generations demand more memory access for every step, leading to substantial pressure on memory bandwidth. To address this, we introduce SparseSpec, a speculative decoding framework that reuses the same model as the draft and target models (i.e., self-speculation). SparseSpec features a novel sparse attention mechanism, PillarAttn, as the draft model, which accurately selects critical tokens via elegantly reusing information from the verification stage. Furthermore, SparseSpec co-designs self-speculation with three system innovations: (1) a unified scheduler to batch token drafting and verification, (2) delayed verification for CPU/GPU overlap, and (3) dynamic KV-Cache management to maximize memory utilization. Across various models and datasets, SparseSpec outperforms state-of-the-art solutions, with an up to 2.13x throughput speedup.
- Abstract(参考訳): 推論言語モデルは、精巧なチェーン・オブ・ソート(CoT)ソリューションを生成することで、困難なタスクに顕著な能力を示してきた。
しかし、このような長い生成は、推論ボトルネックを計算バウンドからメモリバウンドにシフトさせる。
それぞれのトークンを生成するために、モデルは、以前生成されたすべてのトークンに完全に注意を払っており、ますます大きなKV-Cacheへのメモリアクセスを必要としている。
その結果、世代が長くなるとステップ毎にメモリアクセスが増加し、メモリ帯域幅が大幅に増大する。
これを解決するために、ドラフトモデルとターゲットモデル(すなわち自己定義)と同じモデルを再利用する投機的復号化フレームワークであるSparseSpecを紹介します。
SparseSpecは、新しいスパースアテンションメカニズムであるPillarAttnをドラフトモデルとして、検証段階から情報をエレガントに再利用することで、クリティカルトークンを正確に選択する。
さらに、SparseSpecは、(1)バッチトークンのドラフトと検証のための統一スケジューラ、(2)CPU/GPUオーバーラップの遅延検証、(3)メモリ利用を最大化するための動的KVキャッシュ管理の3つのシステム革新で自己定義を設計する。
さまざまなモデルとデータセットにわたって、SparseSpecは最先端のソリューションより優れており、スループットは最大2.13倍である。
関連論文リスト
- SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [11.225649178057695]
SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。
長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。
SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
論文 参考訳(メタデータ) (2025-05-27T06:30:00Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。