論文の概要: Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.01639v1
- Date: Mon, 02 Mar 2026 09:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.787278
- Title: Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning
- Title(参考訳): ドラフトの学習:強化学習による適応的投機的デコーディング
- Authors: Jiebin Zhang, Zhenghan Yu, Liang Wang, Nan Yang, Eugene J. Yu, Zheng Li, Yifan Song, Dawei Zhu, Xingxing Zhang, Furu Wei, Sujian Li,
- Abstract要約: 本稿では,各ドラフト・アンド・検証サイクルのスループットを直接最適化する新しい手法であるLearning to Draftを紹介する。
LTDは2.24倍から4.32倍までのスピードアップ比を達成し、最先端のイーグル3よりも36.4%向上した。
- 参考スコア(独自算出の注目度): 67.88087883391475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates large language model (LLM) inference by using a small draft model to generate candidate tokens for a larger target model to verify. The efficacy of this technique hinges on the trade-off between the time spent on drafting candidates and verifying them. However, current state-of-the-art methods rely on a static time allocation, while recent dynamic approaches optimize for proxy metrics like acceptance length, often neglecting the true time cost and treating the drafting and verification phases in isolation. To address these limitations, we introduce Learning to Draft (LTD), a novel method that directly optimizes for throughput of each draft-and-verify cycle. We formulate the problem as a reinforcement learning environment and train two co-adaptive policies to dynamically coordinate the draft and verification phases. This encourages the policies to adapt to each other and explicitly maximize decoding efficiency. We conducted extensive evaluations on five diverse LLMs and four distinct tasks. Our results show that LTD achieves speedup ratios ranging from 2.24x to 4.32x, outperforming the state-of-the-art method Eagle3 up to 36.4%.
- Abstract(参考訳): 投機的復号化は、小さなドラフトモデルを用いて大きなターゲットモデルに対する候補トークンを生成することにより、大きな言語モデル(LLM)推論を加速する。
この手法の有効性は、候補者の起草に費やした時間とそれを検証する時間の間のトレードオフに影響を及ぼす。
しかし、現在の最先端のメソッドは静的な時間割当に依存しているが、最近の動的アプローチは、受け入れ時間のようなプロキシメトリクスを最適化し、真の時間コストを無視し、ドラフトと検証フェーズを分離して扱う。
これらの制約に対処するために,各ドラフト・アンド・検証サイクルのスループットを直接最適化する新しい手法であるLearning to Draft(LTD)を導入する。
我々は、強化学習環境として問題を定式化し、ドラフトと検証フェーズを動的に調整する2つの共適応ポリシーを訓練する。
これにより、ポリシーは互いに適応し、デコード効率を明示的に最大化する。
5つの異なるLCMと4つの異なるタスクについて広範囲に評価を行った。
その結果、LTDは2.24倍から4.32倍のスピードアップ比を達成し、最先端のEagle3よりも36.4%向上した。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs [14.030784220154151]
本研究では,大規模視覚言語モデルに対するTABED(Test-time Adaptive Batched Ensemble Drafting)を提案する。
TABEDは、SD設定で利用可能な過去の真実からの逸脱を利用して、バッチ推論によって得られた複数のドラフトをアンサンブルする。
自動回帰復号法よりも1.74倍のロバストなウォールタイム・スピードアップを実現し、単一起草法よりも5%改善した。
論文 参考訳(メタデータ) (2026-01-28T08:16:57Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification [48.17448109580635]
トレーニング不要なアライメント拡張型投機的復号アルゴリズムを提案する。
提案手法は,平均受理長を2.39まで,生成速度を2.23倍に向上させる。
論文 参考訳(メタデータ) (2025-05-19T14:55:41Z) - Automatic Task Detection and Heterogeneous LLM Speculative Decoding [1.0485739694839669]
下流タスク最適化に適した投機的復号化アルゴリズムを提案する。
ダウンストリームタスクを異なるサブタスクに自動的に分類するタスクパーティショニングとアサイン方法が含まれている。
実験の結果,提案手法はバニラ投機復号よりも6%から50%精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-13T14:16:12Z) - CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter [9.631036588583248]
投機的復号化は,軽量な投機的ドラフトモデルを活用することで,Large Language Model (LLM)推論を高速化する強力な手法である。
近年の手法では、多段階のトレーニング戦略を採用することでこの問題の解決が試みられているが、異なるトレーニングステップの複雑な入力によって、ドラフトモデルを収束させるのが難しくなっている。
投機的起草における精度と効率を両立させる新しいフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2025-02-24T06:28:26Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。