論文の概要: EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter Adaptation
- arxiv url: http://arxiv.org/abs/2605.27390v2
- Date: Thu, 28 May 2026 06:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.520365
- Title: EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter Adaptation
- Title(参考訳): EvoSpec: リアルタイム語彙とパラメータ適応による投機的デコーディングの進化
- Authors: Shuyu Zhang, Lingfeng Pan, Qicheng Wang, Yaqi Shi, Yueyang Tan, Ruyu Yan, Jiaqi Chen, Lixing Du, Lu Wang,
- Abstract要約: EvoSpecは動的語彙とパラメータ適応によるドラフトモデルのリアルタイム進化を可能にするフレームワークである。
最新の静的ベースラインFR-Specよりも1.13倍のスピードアップを実現しており、通常のオンライン適応よりもメモリオーバーヘッドが27%低い。
- 参考スコア(独自算出の注目度): 15.94674618023941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates Large Language Model inference via a draft-then-verify paradigm, yet the output projection layer becomes a bottleneck as vocabulary sizes scale. While existing static pruning methods effectively reduce this overhead, they suffer from precipitous drops in acceptance rate in specialized domains or topic-switching scenarios due to their inability to capture dynamic distribution shifts. To address this, we introduce EvoSpec, a framework that enables real-time evolution of the draft model through dynamic vocabulary and parameter adaptation. Unlike static or purely retrieval-based approaches, EvoSpec employs a context-aware mechanism that retrieves critical long-tail tokens via efficient semantic and statistical indexing. Furthermore, we propose a lightweight online alignment strategy utilizing curriculum learning to continually minimize the distributional gap between the draft and target models. Extensive evaluations across specialized domains (coding, law, and medicine) confirm that EvoSpec overcomes the limitations of static baselines. On EAGLE-3, it achieves a 1.13x speedup in these settings over the state-of-the-art static baseline FR-Spec, with 27\% lower memory overhead than standard online adaptation.
- Abstract(参考訳): 投機的復号化は、ドラフト・then-verifyパラダイムを通じて大規模言語モデル推論を加速させるが、出力プロジェクション層は語彙サイズスケールとしてボトルネックとなる。
既存の静的プルーニング手法は、このオーバーヘッドを効果的に削減するが、動的分散シフトをキャプチャできないため、特殊なドメインやトピックスイッチングシナリオでの受け入れ率の急激な低下に悩まされる。
そこで本稿では,動的語彙とパラメータ適応により,ドラフトモデルのリアルタイム進化を可能にするフレームワークであるEvoSpecを紹介する。
静的または純粋に検索ベースのアプローチとは異なり、EvoSpecはコンテキスト認識メカニズムを使用して、効率的なセマンティックおよび統計的インデックスによって重要なロングテールトークンを検索する。
さらに,カリキュラム学習を利用した軽量なオンラインアライメント戦略を提案する。
専門分野(コーディング、法学、医学)にわたる広範な評価は、EvoSpecが静的ベースラインの限界を克服していることを確認した。
EAGLE-3では、最先端の静的ベースラインFR-Specよりも1.13倍のスピードアップを実現している。
関連論文リスト
- SlimSpec: Low-Rank Draft LM-Head for Accelerated Speculative Decoding [41.803148916760804]
出力ではなく内部表現を圧縮する,ドラフトラのLMヘッドの低ランクパラメータ化であるSlimSpecを提案する。
SlimSpecは標準のLMヘッドアーキテクチャよりも4text-5times$Accelerationを実現している。
論文 参考訳(メタデータ) (2026-05-11T12:22:37Z) - CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs [48.8252978488871]
投機的復号化は、大きな言語モデルをデプロイする際のシームレスな統合と広範なユーティリティを提供する。
ドラフトモデルの階層化は、さらなる加速と柔軟性を約束するが、複数のモデルをトレーニングするコストが高いため、実用的応用は制限されている。
本稿では,投機的ドラフトモデルを構成するCascade Adaptive Self-Speculative Decoding(CAS-Spec)手法を提案する。
論文 参考訳(メタデータ) (2025-10-30T08:51:29Z) - Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation [90.5844979560448]
VocAlignは、セマンティックセグメンテーションにおいてVLM用に特別に設計された、ソースフリーのドメイン適応フレームワークである。
提案手法は,CityScapesデータセットの6.11mIoU改善を実現し,ゼロショットセグメンテーションベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-18T17:59:58Z) - HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding [2.2491281629568687]
HeteroSpecは投機的復号化フレームワークで、検証の労力を候補の不確実性に比例して割り当てる。
平均4.24$times$decoding speedup over-of-the-artメソッドを提供する。
HeteroSpecはモデルの再トレーニングを必要とせず、他の推論最適化と互換性がある。
論文 参考訳(メタデータ) (2025-05-19T15:38:40Z) - AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures [11.436315332919245]
適応型ドラフト構造を明示的にモデル化する最初のSDフレームワークであるAdaEAGLEを紹介する。
AdaEAGLEは、バニラARデコードよりも1.62倍のスピードアップを実現し、固定長のSotAベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-25T13:57:33Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。