論文の概要: Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding
- arxiv url: http://arxiv.org/abs/2603.05210v1
- Date: Thu, 05 Mar 2026 14:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.266091
- Title: Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding
- Title(参考訳): より高速な投機的復号化のための語彙トリミングにおけるバランシング被覆とドラフトレイテンシ
- Authors: Ofir Ben Shoham,
- Abstract要約: ドラフト語彙を高いカバレッジで最大97%削減しながら、投機的復号化のスループットを向上させる。
ドメイン固有のタスクでは、レイテンシの最大16%の削減と20%のスループット改善を実現し、さまざまなアウト・オブ・ディストリビューションタスクで最大6.7%のスループット向上を実現しています。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates inference for Large Language Models by using a lightweight draft model to propose candidate tokens that are verified in parallel by a larger target model. Prior work shows that the draft model often dominates speculative decoding latency, since it generates tokens sequentially and incurs high cost from its language modeling head as vocabulary size grows. This exposes a fundamental trade-off in draft model design: larger vocabularies improve token coverage and agreement with the target model, but incur higher draft latency, while smaller vocabularies reduce latency at the risk of missing tokens required for accurate draft generation. We address this trade-off through vocabulary trimming for draft models, motivated by the observation that domain-specific workloads use only a small fraction of the full vocabulary. We cast draft vocabulary selection as a constrained optimization problem that balances token coverage and draft latency. Coverage is computed over assistant responses in the training data, while latency is estimated using architecture-aware FLOPs that capture the cost of the language modeling head as a function of vocabulary size. We optimize a utility function with a Tree-structured Parzen Estimator to efficiently explore the coverage-latency Pareto frontier under a minimum coverage constraint. Experiments show improved speculative decoding throughput while reducing draft vocabularies by up to 97% with high coverage. On domain-specific tasks, we achieve up to 16% latency reduction and 20% throughput improvement, and up to 6.7% throughput gains on diverse out-of-distribution tasks.
- Abstract(参考訳): 投機的復号化は、軽量なドラフトモデルを用いて、より大きなターゲットモデルによって並列に検証される候補トークンを提案することにより、大規模言語モデルの推論を加速する。
先行研究では、語彙のサイズが大きくなるにつれて、トークンを逐次生成し、その言語モデリングヘッドから高いコストを発生させるため、ドラフトモデルが投機的復号遅延を支配することがしばしば示されている。
より大きな語彙はトークンのカバレッジを改善し、ターゲットモデルとの整合性を向上するが、より小さな語彙は正確なドラフト生成に必要なトークンが欠落するリスクがある場合の遅延を減少させる。
ドメイン固有のワークロードが完全なボキャブラリのごく一部しか使用していないという観察に動機づけられた、ドラフトモデルの語彙トリミングによるこのトレードオフに対処する。
我々は,トークンのカバレッジと遅延のバランスをとる制約付き最適化問題として,ドラフト語彙の選択を行った。
言語モデリングヘッドのコストを語彙サイズの関数として捉えたアーキテクチャ対応FLOPを用いてレイテンシを推定する。
木構造型Parzen Estimatorを用いたユーティリティ関数を最適化し,最小限のカバレッジ制約下でのカバレッジレイテンシParetoフロンティアを効率的に探索する。
実験では、投機的復号化のスループットが向上し、高いカバレッジでドラフト語彙を最大97%削減した。
ドメイン固有のタスクでは、レイテンシの最大16%の削減と20%のスループット改善を実現し、さまざまなアウト・オブ・ディストリビューションタスクで最大6.7%のスループット向上を実現しています。
関連論文リスト
- Speculative Decoding with a Speculative Vocabulary [44.656073829954636]
投機的復号化は言語モデル(LM)推論を高速化するための主要なアプローチである。
最近の研究は、ドラフトモデルの語彙を減らし、この出力分布のボトルネックに対処しようと試みている。
本稿では,デコードステップ毎に語彙サブセットを選択する,効率的かつ効果的な方法であるSpecVocabを提案する。
論文 参考訳(メタデータ) (2026-02-14T16:10:00Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models [13.242009624334996]
DynaSpecは動的ショートリスト機構で、堅牢で、ドラフトをスピードアップし、さまざまなタスクにまたがって一般化する。
Llama-3-8Bでは許容される平均長を98.2%まで改善した。
文脈依存の選択を利用することで、DynaSpecは生成トークンの最大2.18倍、固定語彙アプローチの1.91倍を達成する。
論文 参考訳(メタデータ) (2025-10-11T19:38:07Z) - VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs [15.508475101753715]
本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。
ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。
提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
論文 参考訳(メタデータ) (2025-06-28T00:26:40Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - POSS: Position Specialist Generates Better Draft for Speculative Decoding [29.847485296491204]
投機的復号化はLarge Language Model (LLM)推論を加速させる。
近年の研究では、ターゲットモデルの隠れ状態を利用して、ドラフトモデル予測精度を向上させる。
割り当てられた位置でトークンを生成するために複数の位置特定されたドラフト層からなる位置スペシャリスト(PosS)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:30:30Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。