論文の概要: DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
- arxiv url: http://arxiv.org/abs/2510.13847v1
- Date: Sat, 11 Oct 2025 19:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.470885
- Title: DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models
- Title(参考訳): DynaSpec: 大語彙言語モデルのためのコンテキスト対応動的投機サンプリング
- Authors: Jinbin Zhang, Nasib Ullah, Erik Schultheis, Rohit Babbar,
- Abstract要約: 近年, LLM語彙のスケーリングにより, トークンの数が大幅に増加した。
完全な語彙に対する検証はターゲットモデルにほとんど影響しないが、ドラフトの出力ヘッドのO(|V|d)パラメータは遅延ボトルネックとなる。
我々は、コンテキスト依存の動的ショートリスト機構であるDynaSpecを提案する。
- 参考スコア(独自算出の注目度): 13.242009624334996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (a.k.a. speculative sampling) has become a standard way to accelerate LLM inference: a small drafter proposes multiple tokens and a large target model verifies them once per speculation length. Recently, scaling of the LLM vocabulary has pushed the number of tokens to grow substantially. While verification over the full vocabulary leaves the target model largely unaffected, the O(|V|d) parameters in the drafter's output head become a latency bottleneck, slowing the entire pipeline. Contemporary methods (e.g., FR-Spec, VocabTrim) restrict the drafter's vocabulary to a fixed subset of the target model's vocabulary, ranked in descending order of token frequency. Although this reduces draft-time compute, it is brittle, since: (i) frequency lists are corpus-dependent and require retuning to generalize, and (ii) static shortlists suppress rare or domain-specific tokens, lowering the expected number of tokens per verification step. We propose DynaSpec, a context-dependent dynamic shortlisting mechanism that is robust, speeds up drafting, and generalizes across diverse tasks. Concretely, we introduce lightweight, coarse-grained meta-classifiers that route contexts to a small number of token clusters; the union of the top-k selected clusters forms the drafter's shortlist, while verification retains the full vocabulary and exactness. The meta-classifier finishes its computation earlier than the drafter's hidden state generation by exploiting parallel execution of draft encoding and meta shortlisting on separate streams. On standard speculative-decoding benchmarks, we observe consistent gains in mean accepted length over fixed-shortlist baselines, while context-dependent selection enables smaller shortlists without degrading acceptance.
- Abstract(参考訳): 投機的復号法(投機的復号法、投機的サンプリング法)は、LLM推論を加速する標準的な方法となり、小さな起案者が複数のトークンを提案し、大きなターゲットモデルが投機長あたり1回検証する。
近年, LLM語彙のスケーリングにより, トークンの数が大幅に増加した。
完全な語彙に対する検証はターゲットモデルをほとんど影響しないままだが、ドラフトの出力ヘッドのO(|V|d)パラメータは遅延ボトルネックとなり、パイプライン全体を遅くする。
現代の方法(例えばFR-Spec、VocabTrim)では、起草者の語彙を目標モデルの語彙の固定サブセットに制限し、トークン周波数の順にランク付けする。
これは、ドラフトタイムの計算を減少させるが、不安定である。
(i)周波数リストはコーパスに依存しており、一般化するために調整が必要であり、
(ii) 静的ショートリストは希少またはドメイン固有のトークンを抑圧し、検証ステップ毎に期待されるトークン数を減少させる。
我々は、コンテキスト依存の動的ショートリスト機構であるDynaSpecを提案する。
具体的には、コンテキストを少数のトークンクラスタにルーティングする軽量で粗いメタ分類器を導入し、トップk選択クラスタの結合はドラフトのショートリストを形成し、検証は完全な語彙と正確性を保持する。
メタ分類器は、別のストリーム上でのドラフトエンコーディングとメタショートリストの並列実行を利用して、ドラフトアの隠れ状態生成よりも早く計算を終了する。
標準的な投機的復号化ベンチマークでは、固定ショートリストのベースラインよりも平均的な許容長で一貫したゲインを観測する一方、文脈依存の選択は、受理を劣化させることなく、より小さいショートリストを可能にする。
関連論文リスト
- DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs [15.508475101753715]
本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。
ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。
提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
論文 参考訳(メタデータ) (2025-06-28T00:26:40Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。