論文の概要: Out-of-Vocabulary Sampling Boosts Speculative Decoding
- arxiv url: http://arxiv.org/abs/2506.03206v1
- Date: Mon, 02 Jun 2025 21:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.94653
- Title: Out-of-Vocabulary Sampling Boosts Speculative Decoding
- Title(参考訳): Out-of-Vocabulary Smplingは投機的デコードを促進する
- Authors: Nadav Timor, Jonathan Mamou, Oren Pereg, Hongyang Zhang, David Harel,
- Abstract要約: 投機的復号化は高速で正確な起草に依存している。
最近の最先端の言語モデルは、より大きく大きな語彙を採用しており、ドラフトを著しく遅くしている。
投機的復号化の効率を高めるための有望なアプローチの1つは、より小さな語彙を持つドラフトラを使用することである。
本報告では,初回語彙外サンプリング機であるDrafter Kernels (RDK) について紹介し, プルーニングされたターゲットトークンを事実上復元することにより, 受入率を効果的に回復する。
- 参考スコア(独自算出の注目度): 6.8198393373144475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding relies on fast and accurate drafters. Recent state-of-the-art language models employ larger and larger vocabularies, which significantly slows down drafters. One promising approach to boost the efficiency of speculative decoding is to use drafters with smaller vocabularies. However, existing sampling methods cannot draw out-of-vocabulary tokens, creating a tradeoff between drafters' vocabulary size and acceptance rates. This paper introduces Redistributing Drafter Kernels (RDK), the first out-of-vocabulary sampler that effectively recovers acceptance rates by virtually restoring pruned target tokens. RDK leverages token-affinity priors to reallocate drafter mass towards high-overlap regions. We prove mathematically that RDK can achieve higher acceptance rates than vanilla and state-of-the-art samplers. We provide an efficient first-order approximation of RDK and prove that it reduces redistribution times from $O(N^2)$ to $O(N)$, enabling lightweight implementations for large vocabularies. Our experiments demonstrate that this linear-time RDK significantly boosts acceptance rates even after extreme pruning (removing more than 75% of the drafter's vocabulary), where existing samplers fail. RDK opens the door to extremely pruned drafters, which were previously impractical.
- Abstract(参考訳): 投機的復号化は高速で正確な起草に依存している。
最近の最先端の言語モデルは、より大きく大きな語彙を採用しており、ドラフトを著しく遅くしている。
投機的復号化の効率を高めるための有望なアプローチの1つは、より小さな語彙を持つドラフトラを使用することである。
しかし、既存のサンプリング手法では語彙外トークンを引き出すことができず、ドラフト作成者の語彙サイズと受け入れ率のトレードオフが生じる。
本報告では,初回語彙外サンプリング機であるDrafter Kernels (RDK) について紹介し, プルーニングされたターゲットトークンを事実上復元することにより, 受入率を効果的に回復する。
RDKはトークン親和性を利用して、ドラフトラマ質量を高いオーバーラップ領域に再配置する。
RDKがバニラや最先端のサンプルよりも高い受入率を達成できることを数学的に証明する。
RDKの効率的な一階述語近似を行い,その再分配時間を$O(N^2)$から$O(N)$に短縮し,大規模語彙に対する軽量な実装を実現する。
実験により, この線形時間RDKは, 既存のサンプルが故障した場合に, 極端な刈り込み後の受入率を著しく向上させることを示した。
RDKは、これまで非現実的だった非常に荒削りな草案作成者への扉を開く。
関連論文リスト
- Multi-Sense Embeddings for Language Models and Knowledge Distillation [17.559171180573664]
変換器ベースの大規模言語モデル(LLM)は、周囲のコンテキストに応じて同じトークンに対して異なる表現を生成するコンテキスト埋め込みに依存している。
本稿では,各トークンのドロップイン置換としてマルチセンス埋め込みを提案し,その使用範囲を言語で把握する。
論文 参考訳(メタデータ) (2025-04-08T13:36:36Z) - DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。
我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。
Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-02-21T16:32:28Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding [28.76164449548306]
MDSD(Multi-Draft Speculative Decoding)は、より小さなドラフトモデルを用いて複数のトークンシーケンスを生成することで、有望なソリューションを提供する。
線形計算オーバーヘッドのみで受け入れ率を向上するMDSDの新しい,効率的なサンプリング検証手法であるSpecHubを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:47:07Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。