論文の概要: BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2505.15141v1
- Date: Wed, 21 May 2025 05:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.918427
- Title: BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
- Title(参考訳): BanditSpec: Banditアルゴリズムによる適応的投機的デコーディング
- Authors: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang,
- Abstract要約: 大規模言語モデル(LLM)の推論を高速化する一般的な手法として、投機的復号法が登場した。
本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの設定を適応的に選択する学習自由オンライン学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 101.9736063064503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has emerged as a popular method to accelerate the inference of Large Language Models (LLMs) while retaining their superior text generation performance. Previous methods either adopt a fixed speculative decoding configuration regardless of the prefix tokens, or train draft models in an offline or online manner to align them with the context. This paper proposes a training-free online learning framework to adaptively choose the configuration of the hyperparameters for speculative decoding as text is being generated. We first formulate this hyperparameter selection problem as a Multi-Armed Bandit problem and provide a general speculative decoding framework BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms, UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity, the stopping time regret. We upper bound this regret under both stochastic and adversarial reward settings. By deriving an information-theoretic impossibility result, it is shown that the regret performance of UCBSpec is optimal up to universal constants. Finally, extensive empirical experiments with LLaMA3 and Qwen2 demonstrate that our algorithms are effective compared to existing methods, and the throughput is close to the oracle best hyperparameter in simulated real-life LLM serving scenarios with diverse input prompts.
- Abstract(参考訳): 投機的復号化は,テキスト生成性能を維持しつつ,Large Language Models (LLMs) の推論を高速化する一般的な手法として登場した。
以前のメソッドでは、プレフィックストークンに関わらず、固定された投機的デコード構成を採用するか、オフラインまたはオンラインの方法でドラフトモデルをトレーニングして、それらをコンテキストと整合させるかのいずれかだった。
本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの構成を適応的に選択する学習自由オンライン学習フレームワークを提案する。
まず、このハイパーパラメータ選択問題をマルチアーマド帯域幅問題として定式化し、一般的な投機的復号化フレームワークBanditSpecを提供する。
さらに,UCBSpec と EXP3Spec の2つの帯域幅型ハイパーパラメータ選択アルゴリズムを設計,解析し,新しい量,停止時間の後悔点を考察した。
我々は、この後悔を、確率的および敵対的な報酬設定の両方で上書きする。
情報理論的不合理性の結果を導出することにより, UCBSpecの後悔性能は普遍定数まで最適であることが示される。
最後に、LLaMA3 と Qwen2 を用いた実験実験により、我々のアルゴリズムは既存の手法と比較して有効であり、スループットは様々な入力プロンプトを持つ実生活 LLM のシナリオを模擬する際のオラクル最適ハイパーパラメータに近いことを示した。
関連論文リスト
- Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。