論文の概要: When Drafts Evolve: Speculative Decoding Meets Online Learning
- arxiv url: http://arxiv.org/abs/2603.12617v1
- Date: Fri, 13 Mar 2026 03:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.88241
- Title: When Drafts Evolve: Speculative Decoding Meets Online Learning
- Title(参考訳): ドラフトの進化: 投機的デコーディングはオンライン学習と出会う
- Authors: Yu-Yang Qian, Hao-Cong Wu, Yichao Fu, Hao Zhang, Peng Zhao,
- Abstract要約: 投機的復号化は、追加コストなしでドラフトモデルとターゲットモデルの偏差を定量化する検証フィードバックを提供する。
インタラクティブなフィードバックを体系的に活用し、継続的なドラフトモデルを進化させる統合フレームワークであるOnlineSpecを提案する。
我々のアルゴリズムは理論的な正当化と加速率の改善を備えており、7つのベンチマークと3つの基礎モデルに対して最大24%の高速化を実現している。
- 参考スコア(独自算出の注目度): 15.718637402530467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has emerged as a widely adopted paradigm for accelerating large language model inference, where a lightweight draft model rapidly generates candidate tokens that are then verified in parallel by a larger target model. However, due to limited model capacity, drafts often struggle to approximate the target distribution, resulting in shorter acceptance lengths and diminished speedup. A key yet under-explored observation is that speculative decoding inherently provides verification feedback that quantifies the deviation between the draft and target models at no additional cost. This process naturally forms an iterative "draft commits-feedback provides-draft adapts" evolving loop, which precisely matches the online learning paradigm. Motivated by this connection, we propose OnlineSpec, a unified framework that systematically leverages interactive feedback to continuously evolve draft models. Grounded in dynamic regret minimization, we establish a formal link between online learning performance and speculative system's acceleration rate, and develop novel algorithms via modern online learning techniques, including optimistic online learning that adaptively reuses historical gradients as predictive update hints, and online ensemble learning that dynamically maintains multiple draft models. Our algorithms are equipped with theoretical justifications and improved acceleration rates, achieving up to 24% speedup over seven benchmarks and three foundation models.
- Abstract(参考訳): 投機的復号化は、大規模言語モデルの推論を加速するための広く採用されているパラダイムとして現れており、軽量なドラフトモデルによって候補トークンが急速に生成され、より大きなターゲットモデルによって並列に検証される。
しかし、モデル容量が限られているため、ドラフトはしばしば目標の分布を近似するのに苦労し、受入距離が短くなりスピードアップが低下した。
まだ探索されていない重要な観察は、投機的復号化は本質的に、ドラフトモデルとターゲットモデルの偏差を余分なコストで定量化する検証フィードバックを提供するということである。
このプロセスは、オンライン学習パラダイムと正確に一致する反復的な"ドラフトコミットフィードバック・フィードバック・フィードバック・フロート適応"進化ループを自然に形成します。
この接続によって、インタラクティブなフィードバックを体系的に活用し、継続的なドラフトモデルを進化させる統合フレームワークであるOnlineSpecを提案する。
動的後悔の最小化を前提として、オンライン学習性能と投機システムの加速率を公式なリンクを確立するとともに、予測更新ヒントとして履歴勾配を適応的に再利用する楽観的なオンライン学習や、複数のドラフトモデルを動的に維持するオンラインアンサンブル学習など、現代のオンライン学習技術を介して新しいアルゴリズムを開発する。
我々のアルゴリズムは理論的な正当化と加速率の改善を備えており、7つのベンチマークと3つの基礎モデルに対して最大24%の高速化を実現している。
関連論文リスト
- Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning [67.88087883391475]
本稿では,各ドラフト・アンド・検証サイクルのスループットを直接最適化する新しい手法であるLearning to Draftを紹介する。
LTDは2.24倍から4.32倍までのスピードアップ比を達成し、最先端のイーグル3よりも36.4%向上した。
論文 参考訳(メタデータ) (2026-03-02T09:17:48Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning [11.68914161151634]
グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。
本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。
提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T02:48:41Z) - Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。
我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。
我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文 参考訳(メタデータ) (2025-01-28T13:21:59Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - Revisiting Dynamic Evaluation: Online Adaptation for Large Language
Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。
オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文 参考訳(メタデータ) (2024-03-03T14:03:48Z) - Bilevel Online Deep Learning in Non-stationary Environment [4.565872584112864]
Bilevel Online Deep Learning (BODL)フレームワークは、双方向最適化戦略とオンラインアンサンブル分類器を組み合わせたフレームワークである。
概念ドリフトが検出されると、BODLアルゴリズムはバイレベル最適化によりモデルパラメータを適応的に更新し、大きなドリフトを回避し、正の転送を促進する。
論文 参考訳(メタデータ) (2022-01-25T11:05:51Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。