論文の概要: VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs
- arxiv url: http://arxiv.org/abs/2506.22694v1
- Date: Sat, 28 Jun 2025 00:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.516336
- Title: VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs
- Title(参考訳): VOCABTRIM: LLMにおける効率的な投機的デコーディングのための語彙処理
- Authors: Raghavv Goel, Sudhanshu Agrawal, Mukul Gagrani, Junyoung Park, Yifan Zao, He Zhang, Tian Liu, Yiping Yang, Xin Yuan, Jiuyan Lu, Chris Lott, Mingu Lee,
- Abstract要約: 本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。
ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。
提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
- 参考スコア(独自算出の注目度): 15.508475101753715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a simple training-free technique to improve the performance of drafter-based speculative decoding (SpD) methods that incorporates language modeling head (LM head) during drafting process. A drafter-based speculative decoding leverages one or more smaller language models, a.k.a. drafters or draft models, to sample a draft sequence or tree consisting of multiple tokens, followed by verification by a base LLM, a target model, accepting a subset as its valid generation. As it is usually considered that the speculative decoding requires one-to-one mapping between vocabularies of the target model and the draft model, it has been natural to share the vocabulary between them, or even share the LM head as in EAGLE or Medusa. We first identify that this draft token sampling scheme inherently contains an unnecessary inference overhead in drafting, especially for some target LLMs with very large vocabularies. Then, we propose a simple technique, VocabTrim, to mitigate the drafting overhead to improve the generation speed in memory-bound environment. VocabTrim reconstructs the drafter LM head to contain only a limited set of tokens, selected by the most frequently sampled from the vocabulary of the target model. While limiting the vocabulary in drafting slightly degrades the acceptance rate, it significantly reduces the drafting latency in memory-bound process which is often the case on edge devices, resulting in higher memory-bound speed up (MBSU). We show that our method can boost the memory-bound speed-up for Llama-3 models on Spec-Bench, specifically by 16% for Llama-3.2-3B-Instruct.
- Abstract(参考訳): 本稿では,言語モデリングヘッド(LMヘッド)を組み込んだドラフトラベース投機的復号法(SpD)の性能向上を目的とした,簡単なトレーニングフリー手法を提案する。
ドラフトラダーベースの投機的復号法は、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用して、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングし、続いてベースLSM(ターゲットモデル)による検証を行い、サブセットを有効な生成として受け入れる。
通常、投機的復号法はターゲットモデルの語彙とドラフトモデルの語彙を1対1でマッピングする必要があると考えられており、それら間で語彙を共有したり、EAGLEやMedusaのようにLMヘッドを共有することは自然である。
まず,提案手法は,特に非常に大きな語彙を持つLLMに対して,起草における不要な推論オーバーヘッドを本質的に含んでいることを確認した。
そこで本研究では,メモリバウンド環境における生成速度を改善するため,草案作成のオーバーヘッドを軽減するための簡単な手法であるVocabTrimを提案する。
VocabTrimは、ターゲットモデルの語彙から最も頻繁にサンプリングされるトークンの限られたセットのみを含むように、ドラフトーLMヘッドを再構築する。
起草時の語彙の制限は受け入れ率をわずかに低下させるが、エッジデバイスでしばしば発生するメモリバウンドプロセスの起草遅延を著しく減少させ、メモリバウンドスピードアップ(MBSU)が向上する。
提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
関連論文リスト
- FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Decoding Speculative Decoding [4.56754610152086]
投機的復号化は、品質を犠牲にすることなく、大規模言語モデルの推論を高速化する技術である。
LLaMA-65BとOPT-66Bの350以上の実験を投機的復号法を用いて検討した。
新しく設計されたドラフトモデルは、既存のドラフトモデルよりも111%高いスループットを提供できる。
論文 参考訳(メタデータ) (2024-02-02T16:15:24Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。