論文の概要: FastEagle: Cascaded Drafting for Accelerating Speculative Decoding
- arxiv url: http://arxiv.org/abs/2509.20416v1
- Date: Wed, 24 Sep 2025 09:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.517695
- Title: FastEagle: Cascaded Drafting for Accelerating Speculative Decoding
- Title(参考訳): FastEagle: 投機的デコーディングを高速化するためのカスケードドドラフト
- Authors: Haiduo Huang, Jiangcheng Song, Wenzhe Zhao, Pengju Ren,
- Abstract要約: 我々はFastEagleを紹介します。FastEagleは非自己回帰的なカスケードのドラフトで、ドラフト全体を1つのフォワードパスで出力します。
FastEagleは、競争力のある受け入れ動作を維持しながら、強力な自己回帰型ドラフトラに対して、ウォールタイムの大幅なスピードアップを提供する。
- 参考スコア(独自算出の注目度): 6.482154864678126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates generation by drafting candidates and verifying them in parallel, yet state-of-the-art drafters (e.g., EAGLE) still require N sequential passes to propose N tokens. We present FastEagle, a non-autoregressive cascaded drafter that emits an entire draft in a single forward pass. FastEagle replaces temporal steps with a lightweight layer cascade and trains with layer-wise supervision to mitigate error accumulation. Coupled with a constrained draft tree that preserves lossless verification cost, FastEagle delivers substantial wall-clock speedups over strong autoregressive drafters while maintaining competitive acceptance behavior. Across multiple LLMs (Vicuna-13B, LLaMA-Instruct 3.x, and DeepSeek-R1-Distill-LLaMA) and tasks (MT-Bench, HumanEval, GSM8K, CNN/DM, Alpaca), FastEagle consistently outperforms EAGLE-3 in speedup under both greedy and stochastic decoding, with comparable average acceptance lengths. These results indicate that removing sequential dependencies in drafting is a practical path toward lossless LLM inference acceleration.
- Abstract(参考訳): 投機的復号化は、候補を起草し、それらを並列に検証することで生成を加速するが、最先端のドラフト作成者(例えば、EAGLE)は N のトークンを提案するために N シーケンシャルパスを必要とする。
我々はFastEagleを紹介します。FastEagleは非自己回帰的なカスケードのドラフトで、ドラフト全体を1つのフォワードパスで出力します。
FastEagleは、一時的なステップを軽量なレイヤカスケードに置き換え、エラーの蓄積を緩和するために層単位での監視を行う。
損失のない検証コストを維持する制約付きドラフトツリーと組み合わせて、FastEagleは、競争力のある受け入れ動作を維持しながら、強力な自己回帰型ドラフトラに対して、ウォールタイムの大幅なスピードアップを提供する。
複数のLCM(Vicuna-13B、LLaMA-Instruct 3.x、DeepSeek-R1-Distill-LLaMA)とタスク(MT-Bench、HumanEval、GSM8K、CNN/DM、Alpaca)をまたいで、FastEagleはGreedyとstchasticの両方のデコーディングでEAGLE-3のスピードアップを常に上回っている。
これらの結果から, ドラフトにおける逐次的依存関係の除去は, 損失のないLLM推論加速への実践的な道筋であることが示唆された。
関連論文リスト
- Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [25.703729145091483]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。