論文の概要: Speculative Decoding with a Speculative Vocabulary
- arxiv url: http://arxiv.org/abs/2602.13836v1
- Date: Sat, 14 Feb 2026 16:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.450569
- Title: Speculative Decoding with a Speculative Vocabulary
- Title(参考訳): 投機的語彙を用いた投機的復号
- Authors: Miles Williams, Young D. Kwon, Rui Li, Alexandros Kouris, Stylianos I. Venieris,
- Abstract要約: 投機的復号化は言語モデル(LM)推論を高速化するための主要なアプローチである。
最近の研究は、ドラフトモデルの語彙を減らし、この出力分布のボトルネックに対処しようと試みている。
本稿では,デコードステップ毎に語彙サブセットを選択する,効率的かつ効果的な方法であるSpecVocabを提案する。
- 参考スコア(独自算出の注目度): 44.656073829954636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has rapidly emerged as a leading approach for accelerating language model (LM) inference, as it offers substantial speedups while yielding identical outputs. This relies upon a small draft model, tasked with predicting the outputs of the target model. State-of-the-art speculative decoding methods use a draft model consisting of a single decoder layer and output embedding matrix, with the latter dominating drafting time for the latest LMs. Recent work has sought to address this output distribution bottleneck by reducing the vocabulary of the draft model. Although this can improve throughput, it compromises speculation effectiveness when the target token is out-of-vocabulary. In this paper, we argue for vocabulary speculation as an alternative to a reduced vocabulary. We propose SpecVocab, an efficient and effective method that selects a vocabulary subset per decoding step. Across a variety of tasks, we demonstrate that SpecVocab can achieve a higher acceptance length than state-of-the-art speculative decoding approach, EAGLE-3. Notably, this yields up to an 8.1% increase in average throughput over EAGLE-3.
- Abstract(参考訳): 投機的復号化は言語モデル(LM)推論を高速化する主要な手法として急速に現れており、同じ出力を出力しながらかなりのスピードアップを提供する。
これは、ターゲットモデルの出力を予測することを任務とする、小さなドラフトモデルに依存している。
最先端の投機的復号法では、単一のデコーダ層と出力埋め込み行列からなるドラフトモデルを使用し、後者は最新のLMのドラフト時間を支配している。
最近の研究は、ドラフトモデルの語彙を減らし、この出力分布のボトルネックに対処しようと試みている。
これはスループットを向上させることができるが、ターゲットトークンが語彙外である場合、推測の有効性を損なう。
本稿では,語彙の縮小に対する代替として語彙投機を論じる。
本稿では,デコードステップ毎に語彙サブセットを選択する,効率的かつ効果的な方法であるSpecVocabを提案する。
様々なタスクにおいて、SpecVocabは最先端の投機的復号法であるEAGLE-3よりも高い受理長を達成できることを示す。
特に、これはEAGLE-3よりも平均スループットが8.1%向上する。
関連論文リスト
- Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding [1.14219428942199]
ドラフト語彙を高いカバレッジで最大97%削減しながら、投機的復号化のスループットを向上させる。
ドメイン固有のタスクでは、レイテンシの最大16%の削減と20%のスループット改善を実現し、さまざまなアウト・オブ・ディストリビューションタスクで最大6.7%のスループット向上を実現しています。
論文 参考訳(メタデータ) (2026-03-05T14:20:22Z) - VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs [15.508475101753715]
本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。
ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。
提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
論文 参考訳(メタデータ) (2025-06-28T00:26:40Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - FastDraft: How to Train Your Draft [1.187801290987671]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。
我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。
FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを1つのサーバに約100億のトークンを持つドラフトモデルを24時間以内に作成することができました。
論文 参考訳(メタデータ) (2024-11-17T12:32:44Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。