論文の概要: TapOut: A Bandit-Based Approach to Dynamic Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.02017v1
- Date: Mon, 03 Nov 2025 19:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.66501
- Title: TapOut: A Bandit-Based Approach to Dynamic Speculative Decoding
- Title(参考訳): TapOut: 動的投機的デコードに対するバンドベースのアプローチ
- Authors: Aditya Sridhar, Nish Sinnadurai, Sean Lie, Vithursan Thangarasa,
- Abstract要約: マルチアームバンディットを用いた動的投機ポリシー選択のためのオンライン・トレーニングフリー・プラグアンドプレイアルゴリズムを提案する。
提案手法では,過去の報酬と探索に基づいてパラメータフリーな動的投機戦略を選択するメタアルゴリズムを用いる。
我々は、さまざまなモデルペアとデータセットにわたる広範な実験を行い、TapOutが競争力や優れたスピードアップを達成することを示す。
- 参考スコア(独自算出の注目度): 2.999723898274643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLMs by using a lightweight draft model to generate tokens autoregressively before verifying them in parallel with a larger target model. However, determining the optimal number of tokens to draft remains a key challenge limiting the approach's effectiveness. Dynamic speculative decoding aims to intelligently decide how many tokens to draft to achieve maximum speedups. Existing methods often rely on hand-tuned, sensitive thresholds (e.g., token entropy), which are costly to set and generalize poorly across models and domains. We propose TapOut, an online, training-free, plug-and-play algorithm for dynamic speculation policy selection using multi-armed bandits. Our approach employs a meta-algorithm that selects among multiple parameter-free dynamic speculation strategies based on past reward and exploration. We conduct extensive experiments across diverse model pairs and datasets, showing that TapOut achieves competitive or superior speedups compared to well-established dynamic speculation baselines without any hyperparameter tuning.
- Abstract(参考訳): 投機的復号化は軽量のドラフトモデルを用いてLCMを加速し、トークンを自動回帰的に生成し、より大きなターゲットモデルと並列に検証する。
しかしながら、ドラフトに最適なトークン数を決定することは、アプローチの有効性を制限する重要な課題である。
動的投機的復号化は、最大スピードアップを達成するために、ドラフトするトークンの数をインテリジェントに決定することを目的としている。
既存の手法は、しばしば手動で調整された、敏感なしきい値(トークンエントロピーなど)に依存しており、モデルやドメインをまたいだ設定や一般化にコストがかかる。
多腕バンディットを用いた動的投機ポリシー選択のためのオンライン・トレーニングフリー・プラグイン・アンド・プレイアルゴリズムであるTapOutを提案する。
提案手法では,過去の報酬と探索に基づいてパラメータフリーな動的投機戦略を選択するメタアルゴリズムを用いる。
我々は多種多様なモデルペアとデータセットにまたがって広範な実験を行い、TapOutはハイパーパラメータチューニングなしで確立された動的投機ベースラインと比較して、競争力や優れたスピードアップを達成することを示した。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs [12.056664630923896]
投機的復号化は推論効率を大幅に向上させる。
ドラフトとターゲットモデルは、同じ語彙を共有しなければならない。
普遍的な投機的復号化のためのアルゴリズムTokenTimingを提案する。
論文 参考訳(メタデータ) (2025-10-17T11:25:36Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms [101.9736063064503]
大規模言語モデル(LLM)の推論を高速化する一般的な手法として、投機的復号法が登場した。
本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの設定を適応的に選択する学習自由オンライン学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T05:56:31Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。