論文の概要: Not-a-Bandit: Provably No-Regret Drafter Selection in Speculative Decoding for LLMs
- arxiv url: http://arxiv.org/abs/2510.20064v1
- Date: Wed, 22 Oct 2025 22:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.934887
- Title: Not-a-Bandit: Provably No-Regret Drafter Selection in Speculative Decoding for LLMs
- Title(参考訳): Not-a-Bandit: LLMにおける投機的復号法の選択
- Authors: Hongyi Liu, Jiaji Huang, Zhen Jia, Youngsuk Park, Yu-Xiang Wang,
- Abstract要約: 対象モデルにクエリを追加することなく、選択したモデルのみではなく、すべてのドラフトモデルを正確に評価できることを示します。
オンライン学習者のシステム効率のよいバージョンを設計し、計算とレイテンシのオーバーヘッドを大幅に削減できることを実証する。
- 参考スコア(独自算出の注目度): 26.796951335634542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is widely used in accelerating large language model (LLM) inference. In this work, we focus on the online draft model selection problem in speculative decoding. We design an algorithm that provably competes with the best draft model in hindsight for each query in terms of either the token acceptance probability or expected acceptance length. In particular, we show that we can accurately evaluate all draft models, instead of only the chosen model without incurring additional queries to the target model, which allows us to improve exponentially over the existing bandit-based approach as the number of draft models increases. Our approach is generically applicable with any speculative decoding methods (single draft, multi-drafts and draft-trees). Moreover, we design system-efficient versions of online learners and demonstrate that the overhead in computation and latency can be substantially reduced. We conduct extensive experiments on open-source LLMs and diverse datasets, demonstrating that our methods substantially outperform the state-of-the-art EAGLE3 and the BanditSpec baseline in a variety of domains where specialized domain-expert drafters are available, especially when long reasoning chains are required.
- Abstract(参考訳): 投機的復号化は、大規模言語モデル(LLM)推論の高速化に広く用いられている。
本研究では,投機的復号化におけるオンラインドラフトモデル選択問題に焦点をあてる。
提案アルゴリズムは,トークンの受入確率や受入長の予測値の観点から,各クエリに対して最適のドラフトモデルと確実に競合するアルゴリズムを設計する。
特に,対象モデルに追加クエリを発生させることなく,選択したモデルのみではなく,すべてのドラフトモデルを正確に評価できることを示し,ドラフトモデルの増加に伴い,既存のバンディットベースのアプローチよりも指数関数的に改善できることを示す。
提案手法は,任意の投機的復号法(単一ドラフト,複数ドラフト,ドラフトツリー)に適用可能である。
さらに,オンライン学習者のシステム効率の高いバージョンを設計し,計算とレイテンシのオーバーヘッドを大幅に低減できることを示した。
我々は、オープンソースLLMと多様なデータセットに関する広範な実験を行い、特に長い推論チェーンが必要な場合に、特定のドメイン専門家が利用できる様々なドメインにおいて、我々の手法が最先端のEAGLE3とBanditSpecベースラインを大幅に上回っていることを実証した。
関連論文リスト
- Mamba Drafters for Speculative Decoding [58.080550222549064]
SSM(State-of-the-art State Space Model)であるMambaをベースとした新しいドラフトモデルを提案する。
SSMの線形構造を活用することにより、従来のトランスフォーマー法に固有の二次的複雑性を回避することができる。
高品質なドラフト候補を生成するための新しいテスト時間木探索アルゴリズムにより、効率をさらに向上する。
論文 参考訳(メタデータ) (2025-06-01T22:52:47Z) - TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding [76.23719557942917]
TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。
我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
論文 参考訳(メタデータ) (2025-02-21T04:19:24Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models [28.62382804829694]
大規模言語モデル(LLM)は、リソース制約の下での使用は禁じられている。
自動回帰生成に付随する高いレイテンシは、高度なコンピューティングインフラストラクチャに依存する大きなLLMをレンダリングする。
復号化支援は これを軽減するのに役立ちましたが 2つのモデルのアライメントに依存しています
論文 参考訳(メタデータ) (2024-08-16T01:12:21Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Decoding Speculative Decoding [4.56754610152086]
投機的復号化は、品質を犠牲にすることなく、大規模言語モデルの推論を高速化する技術である。
LLaMA-65BとOPT-66Bの350以上の実験を投機的復号法を用いて検討した。
新しく設計されたドラフトモデルは、既存のドラフトモデルよりも111%高いスループットを提供できる。
論文 参考訳(メタデータ) (2024-02-02T16:15:24Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。