論文の概要: NanoSpec: Accelerating Speculative Decoding using Minimalist In-Context Vocabularies
- arxiv url: http://arxiv.org/abs/2605.26444v2
- Date: Mon, 01 Jun 2026 08:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.494484
- Title: NanoSpec: Accelerating Speculative Decoding using Minimalist In-Context Vocabularies
- Title(参考訳): NanoSpec:ミニマリストインコンテキスト語彙を用いた投機的デコーディングの高速化
- Authors: Zhiyang Chen, Daliang Xu, Yinyuan Zhang, Chenghua Wang, Mengwei Xu, Yun Ma,
- Abstract要約: NanoSpecは、ドラフトタイムを平均51.6%削減し、1.17$-1.29times$エンドツーエンドのスピードアップを提供する。
本稿では,スパースメモリアクセスの非効率性を克服するシステム設計について紹介する。
補完的なプラグアンドプレイモジュールとして、NanoSpecはドラフト時間を平均51.6%削減し、1.17$-1.29times$エンドツーエンドのスピードアップを提供する。
- 参考スコア(独自算出の注目度): 5.749618977356584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive vocabulary sizes of large language models, often exceeding 100k tokens, impose a computational bottleneck on the final linear projection layer during speculative decoding. Existing vocabulary pruning solutions rely on static or coarsely-grained sub-vocabularies that necessitate large active sizes ($\sim$30k) to maintain draft quality. We propose NanoSpec, a novel training-free approach that breaks this trade-off by dynamically constructing a minimalist, context-aware active vocabulary for each generation step. Leveraging the inherent temporal locality of language generation, NanoSpec achieves high coverage while slashing the average vocabulary size by over $40\times$ (to $<$3k tokens) without requiring any auxiliary trained parameters. To realize the theoretical benefits of such high sparsity on modern hardware, we introduce a system-algorithm co-design that overcomes the inefficiencies of sparse memory access through asynchronous gathering and GPU-resident state management. As a complementary plug-and-play module, NanoSpec cuts draft time by an average of 51.6\%, delivering a $1.17$-$1.29\times$ end-to-end speedup over the state-of-the-art speculative decoding methods EAGLE-2 and EAGLE-3 across 7 tasks and outperforming complex training-based pruning baselines.
- Abstract(参考訳): 大規模言語モデルの大規模な語彙サイズは、しばしば100kトークンを超え、投機的復号中に最終線形射影層に計算的ボトルネックを課す。
既存のボキャブラリプルーニングソリューションは、ドラフト品質を維持するために大きなアクティブサイズ($30k)を必要とする静的または粗粒のサブボキャブラリに依存している。
我々は,このトレードオフを打破する新しいトレーニングフリーアプローチであるNanoSpecを提案し,各生成ステップに対して最小限の文脈対応のアクティブ語彙を動的に構築する。
言語生成の時間的局所性を活用して、NanoSpecは、補助的な訓練されたパラメータを必要とせずに、平均語彙サイズを$40\times$($<3kトークン)以上削減しながら、高いカバレッジを達成する。
現代のハードウェアにそのような分散性の理論的利点を実現するため,非同期収集とGPU常駐状態管理によるスパースメモリアクセスの非効率性を克服するシステムアルゴリズムの共設計を導入する。
補完的なプラグ・アンド・プレイモジュールとして、NanoSpecはドラフト時間を平均51.6\%削減し、最先端の投機的復号法 EAGLE-2 と EAGLE-3 よりも1.17$-1.29\times$ end-to-end のスピードアップを実現し、複雑なトレーニングベースのプルーニングベースラインを上回った。
関連論文リスト
- Scaling Embedding Layers in Language Models [61.939921364422936]
$SCONE$は入力埋め込み層を拡張して言語モデルのパフォーマンスを向上させる新しいメソッドである。
SCONE$は、n-gramの頻繁なセットに埋め込みを導入しながら、元の語彙を保持します。
これらの埋め込みは、各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
$SCONE$は、n-gram埋め込みの数を増やし、それらを学ぶために使用するモデルをスケーリングする、という2つの新しいスケーリング戦略を可能にします。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。