論文の概要: Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism
- arxiv url: http://arxiv.org/abs/2506.01979v1
- Date: Fri, 16 May 2025 07:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.65304
- Title: Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism
- Title(参考訳): ハイブリッドドラフトとロールバック対応分岐並列処理による投機的復号化
- Authors: Yuhao Shen, Junyi Shen, Quan Kong, Tianyu Liu, Yao Lu, Cong Wang,
- Abstract要約: 投機的復号化において分岐並列性を解放する新しいフレームワーク textbfSpecBranch を提案する。
SDにおける分岐並列化の可能性を詳細に分析し、並列化とトークンロールバックのトレードオフに鍵となる課題があることを認識する。
我々の実験は、SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
- 参考スコア(独自算出の注目度): 12.97746884176577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, speculative decoding (SD) has emerged as a promising technique to accelerate LLM inference by employing a small draft model to propose draft tokens in advance, and validating them in parallel with the large target model. However, the existing SD methods still remain fundamentally constrained by their serialized execution, which causes the mutual waiting bubbles between the draft and target models. To address this challenge, we draw inspiration from branch prediction in modern processors and propose a novel framework \textbf{SpecBranch} to unlock branch parallelism in SD. Specifically, we first take an in-depth analysis of the potential of branch parallelism in SD, and recognize that the key challenge lies in the trade-offs between parallelization and token rollback. Based on the analysis, we strategically introduce parallel speculative branches to preemptively hedge against likely rejections. Meanwhile, to enhance parallelism, we jointly orchestrate adaptive draft lengths with a hybrid combination of the implicit draft model confidence and explicit reusing of target model features. Extensive experiments across various models and benchmarks show that SpecBranch achieves over \textbf{1.8}$\times \sim$ \textbf{4.5}$\times$ speedups against the auto-regressive decoding and reduces rollback tokens by $\textbf{50}$\% for poorly aligned models, realizing its applicability for real-world deployments.
- Abstract(参考訳): 近年, 投機的復号法 (SD) は, LLM推論を加速するための有望な手法として, 投機的復号法 (SD) として, ドラフトトークンを事前に提案し, 大規模ターゲットモデルと並列に検証することにより, 小型のドラフトモデルを用いてLCM推論の高速化を図っている。
しかし、既存のSDメソッドはシリアライズされた実行によって根本的な制約が残っており、それによってドラフトとターゲットモデル間の相互待ちバブルが生じる。
この課題に対処するために、現代のプロセッサにおける分岐予測からインスピレーションを得て、SDの分岐並列性を解き放つ新しいフレームワーク \textbf{SpecBranch} を提案する。
具体的には,SDにおける分岐並列化の可能性について詳細に分析し,並列化とトークンロールバックのトレードオフに重要な課題があることを認識する。
この分析に基づいて、我々は、潜在的な拒絶に対してプリエンプティブ・ヘッジを行うために、パラレル・投機的分岐を戦略的に導入する。
一方、並列性を高めるために、暗黙のドラフトモデル信頼性とターゲットモデル特徴の明示的な再利用を併用して、適応的なドラフト長を協調的に編成する。
さまざまなモデルやベンチマークにわたる大規模な実験により、SpecBranchは、自動回帰デコードに対するスピードアップとロールバックトークンの低整合モデルに対する$\textbf{50}$\%の削減を実現し、実際のデプロイメントへの適用性を実現した。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。