論文の概要: TAPS: Task Aware Proposal Distributions for Speculative Sampling
- arxiv url: http://arxiv.org/abs/2603.27027v1
- Date: Fri, 27 Mar 2026 22:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.741347
- Title: TAPS: Task Aware Proposal Distributions for Speculative Sampling
- Title(参考訳): TAPS:投機サンプリングのためのタスク認識提案分布
- Authors: Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem,
- Abstract要約: 投機的復号化品質がどの程度のドラフトトレーニング分布に依存するかを検討する。
MT-Benchでは,MathInstruct-trained draftが最強であり,ShareGPT-trained draftが最強であることを示す。
また、推論時に特別なドラフトラを組み合わせる方法も研究している。
- 参考スコア(独自算出の注目度): 43.87155816175029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates autoregressive generation by letting a lightweight draft model propose future tokens that a larger target model then verifies in parallel. In practice, however, draft models are usually trained on broad generic corpora, which leaves it unclear how much speculative decoding quality depends on the draft training distribution. We study this question with lightweight HASS and EAGLE-2 drafters trained on MathInstruct, ShareGPT, and mixed-data variants, evaluated on MT-Bench, GSM8K, MATH-500, and SVAMP. Measured by acceptance length, task-specific training yields clear specialization: MathInstruct-trained drafts are strongest on reasoning benchmarks, while ShareGPT-trained drafts are strongest on MT-Bench. Mixed-data training improves robustness, but larger mixtures do not dominate across decoding temperatures. We also study how to combine specialized drafters at inference time. Naive checkpoint averaging performs poorly, whereas confidence-based routing improves over single-domain drafts and merged-tree verification yields the highest acceptance length overall for both backbones. Finally, confidence is a more useful routing signal than entropy: rejected tokens tend to have higher entropy, but confidence produces much clearer benchmark-level routing decisions. These results show that speculative decoding quality depends not only on draft architecture, but also on the match between draft training data and downstream workload, and that specialized drafters are better combined at inference time than in weight space.
- Abstract(参考訳): 投機的復号化は、軽量なドラフトモデルに、より大きなターゲットモデルが並列に検証する将来のトークンを提案することによって、自己回帰生成を加速させる。
しかし実際には、ドラフトモデルは通常、広範な汎用コーパスでトレーニングされるため、投機的復号化品質がドラフトトレーニング分布に依存するかは明らかでない。
本研究では, MT-Bench, GSM8K, MATH-500, SVAMPを用いて, MathInstruct, ShareGPT, Mix-data variants を訓練した軽量HASSと EAGLE-2 のドラフトを用いて検討を行った。
タスク固有のトレーニングは明確な特殊化をもたらす: MathInstruct-trained draftsは推論ベンチマークで最強、ShareGPT-trained draftsはMT-Benchで最強である。
混合データトレーニングは堅牢性を改善するが、より大きな混合は復号温度で支配的ではない。
また、推論時に特別なドラフトラを組み合わせる方法も研究している。
一方、信頼に基づくルーティングは単一ドメインのドラフトよりも改善され、マージツリーの検証は両バックボーン全体の受け入れ期間が最も長くなる。
最後に、信頼度はエントロピーよりも有用なルーティング信号である: 拒否トークンはエントロピーが高い傾向にあるが、信頼度はベンチマークレベルのルーティング決定をより明確にする。
これらの結果は、投機的復号化の品質は、ドラフトアーキテクチャだけでなく、ドラフトトレーニングデータと下流の作業負荷の一致にも依存し、推測時において重量空間よりも特別なドラフトラがよりうまく結合されていることを示している。
関連論文リスト
- DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - POSS: Position Specialist Generates Better Draft for Speculative Decoding [29.847485296491204]
投機的復号化はLarge Language Model (LLM)推論を加速させる。
近年の研究では、ターゲットモデルの隠れ状態を利用して、ドラフトモデル予測精度を向上させる。
割り当てられた位置でトークンを生成するために複数の位置特定されたドラフト層からなる位置スペシャリスト(PosS)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:30:30Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。
LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Draft Model Knows When to Stop: Self-Verification Speculative Decoding for Long-Form Generation [64.59292053188264]
主流SDベンチマークと推論重ベンチマークの実験結果から,SVIPの優れた性能が示された。
SVIPは、ドラフトエントロピーを参照して、ドラフトシーケンスの長さを適応的に決定する、投機的復号システムのためのトレーニング不要な動的長さポリシーである。
論文 参考訳(メタデータ) (2024-11-27T15:53:17Z) - Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。
実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-25T14:10:21Z) - AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。
また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文 参考訳(メタデータ) (2024-10-24T01:13:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。