論文の概要: CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs
- arxiv url: http://arxiv.org/abs/2510.26843v1
- Date: Thu, 30 Oct 2025 08:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.864838
- Title: CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs
- Title(参考訳): CAS-Spec:LLMのオンザフライロスレス推論高速化のためのカスケード適応型自己スペクトル復号法
- Authors: Zhiyuan Ning, Jiawei Shao, Ruge Xu, Xinfei Guo, Jun Zhang, Chi Zhang, Xuelong Li,
- Abstract要約: 投機的復号化は、大きな言語モデルをデプロイする際のシームレスな統合と広範なユーティリティを提供する。
ドラフトモデルの階層化は、さらなる加速と柔軟性を約束するが、複数のモデルをトレーニングするコストが高いため、実用的応用は制限されている。
本稿では,投機的ドラフトモデルを構成するCascade Adaptive Self-Speculative Decoding(CAS-Spec)手法を提案する。
- 参考スコア(独自算出の注目度): 48.8252978488871
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speculative decoding has become a widely adopted as an effective technique for lossless inference acceleration when deploying large language models (LLMs). While on-the-fly self-speculative methods offer seamless integration and broad utility, they often fall short of the speed gains achieved by methods relying on specialized training. Cascading a hierarchy of draft models promises further acceleration and flexibility, but the high cost of training multiple models has limited its practical application. In this paper, we propose a novel Cascade Adaptive Self-Speculative Decoding (CAS-Spec) method which constructs speculative draft models by leveraging dynamically switchable inference acceleration (DSIA) strategies, including layer sparsity and activation quantization. Furthermore, traditional vertical and horizontal cascade algorithms are inefficient when applied to self-speculative decoding methods. We introduce a Dynamic Tree Cascade (DyTC) algorithm that adaptively routes the multi-level draft models and assigns the draft lengths, based on the heuristics of acceptance rates and latency prediction. Our CAS-Spec method achieves state-of-the-art acceleration compared to existing on-the-fly speculative decoding methods, with an average speedup from $1.1\times$ to $2.3\times$ over autoregressive decoding across various LLMs and datasets. DyTC improves the average speedup by $47$\% and $48$\% over cascade-based baseline and tree-based baseline algorithms, respectively. CAS-Spec can be easily integrated into most existing LLMs and holds promising potential for further acceleration as self-speculative decoding techniques continue to evolve.
- Abstract(参考訳): 投機的復号化は、大規模言語モデル(LLM)をデプロイする際のロスレス推論加速に有効な手法として広く採用されている。
オンザフライの自己投機的手法はシームレスな統合と幅広いユーティリティを提供するが、専門的な訓練に依存した手法によって達成される速度向上には欠けることが多い。
ドラフトモデルの階層化は、さらなる加速と柔軟性を約束するが、複数のモデルをトレーニングするコストが高いため、実用的応用は制限されている。
本稿では,動的切替型推論加速(DSIA)戦略を活用することで投機的ドラフトモデルを構築するCascade Adaptive Self-Speculative Decoding(CAS-Spec)手法を提案する。
さらに、自己投機的復号法に適用した場合、従来の縦横カスケードアルゴリズムは非効率である。
本稿では,動的ツリーカスケード(DyTC)アルゴリズムを提案する。このアルゴリズムは,受入率と遅延予測のヒューリスティックスに基づいて,多段階のドラフトモデルを適応的にルーティングし,ドラフト長を割り当てる。
我々のCAS-Spec法は、既存のオンザフライ投機的復号法と比較して最先端の高速化を実現し、平均速度は1.1\times$から2.3\times$まで、様々なLLMやデータセットをまたいだ自己回帰復号法よりも高い。
DyTCは、カスケードベースのベースラインアルゴリズムとツリーベースのベースラインアルゴリズムに対して、平均スピードアップを4,7$\%と4,8$\%改善する。
CAS-Specは、既存のほとんどのLCMに容易に統合でき、自己投機的復号法が進化を続けるにつれて、さらなる加速の可能性を秘めている。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs [12.056664630923896]
投機的復号化は推論効率を大幅に向上させる。
ドラフトとターゲットモデルは、同じ語彙を共有しなければならない。
普遍的な投機的復号化のためのアルゴリズムTokenTimingを提案する。
論文 参考訳(メタデータ) (2025-10-17T11:25:36Z) - FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning [11.68914161151634]
グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。
本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。
提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T02:48:41Z) - CLaSp: In-Context Layer Skip for Self-Speculative Decoding [20.800300833576035]
我々は、自己投機的復号化のためのコンテキスト内レイヤスキッピング戦略であるCLaSpを提案する。
以前の方法とは異なり、CLaSpは追加のドラフトモジュールや追加のトレーニングを必要としない。
CLaSpはLLaMA3シリーズモデルの1.3x 1.7xの高速化を実現する。
論文 参考訳(メタデータ) (2025-05-30T04:15:06Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Cascade Speculative Drafting for Even Faster LLM Inference [24.199907533534535]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムCascade Speculative Draftingを紹介する。
CSドラフトは,対象モデルと同じ出力分布を保ちながら,実験のベースラインよりも高い高速化を実現する。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。