論文の概要: SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2603.18567v1
- Date: Thu, 19 Mar 2026 07:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.004486
- Title: SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding
- Title(参考訳): SpecForge: 投機的デコーディングのための柔軟で効率的なオープンソーストレーニングフレームワーク
- Authors: Shenggui Li, Chao Wang, Yikai Zhu, Yubo Wang, Fan Yin, Shuai Shi, Yefei Chen, Xiaomin Dong, Qiaoling Chen, Jin Pan, Ji Li, Laixin Xie, Yineng Zhang, Lei Yu, Yonggang Wen, Ivor Tsang, Tianwei Zhang,
- Abstract要約: 提案するSpecForgeは,投機的復号モデルをトレーニングするための,オープンソースの実運用指向フレームワークである。
SpecBundleは、コミュニティにおける高品質なドラフトの不足に対処し、私たちのドラフトモデルは、SGLang上で最大4.48倍のエンドツーエンド推論スピードアップを実現しています。
- 参考スコア(独自算出の注目度): 27.15812697068506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models incur high inference latency due to sequential autoregressive decoding. Speculative decoding alleviates this bottleneck by using a lightweight draft model to propose multiple tokens for batched verification. However, its adoption has been limited by the lack of high-quality draft models and scalable training infrastructure. We introduce SpecForge, an open-source, production-oriented framework for training speculative decoding models with full support for EAGLE-3. SpecForge incorporates target-draft decoupling, hybrid parallelism, optimized training kernels, and integration with production-grade inference engines, enabling up to 9.9x faster EAGLE-3 training for Qwen3-235B-A22B. In addition, we release SpecBundle, a suite of production-grade EAGLE-3 draft models trained with SpecForge for mainstream open-source LLMs. Through a systematic study of speculative decoding training recipes, SpecBundle addresses the scarcity of high-quality drafts in the community, and our draft models achieve up to 4.48x end-to-end inference speedup on SGLang, establishing SpecForge as a practical foundation for real-world speculative decoding deployment.
- Abstract(参考訳): 大規模言語モデルは、逐次自己回帰復号化による高い推論遅延を引き起こす。
投機的復号化は、軽量のドラフトモデルを使用してバッチ検証のための複数のトークンを提案することにより、このボトルネックを軽減する。
しかしながら、高品質なドラフトモデルとスケーラブルなトレーニングインフラストラクチャの欠如により、採用は制限されている。
EAGLE-3を完全にサポートした投機的復号モデルをトレーニングするための,オープンソースの実運用指向フレームワークであるSpecForgeを紹介する。
SpecForgeはターゲット-ドラフトの分離、ハイブリッド並列性、最適化されたトレーニングカーネル、プロダクショングレードの推論エンジンとの統合、Qwen3-235B-A22Bの最大9.9倍高速なEAGLE-3トレーニングを実現している。
さらに、主要なオープンソースLLM向けにSpecForgeでトレーニングされた、プロダクショングレードのEAGLE-3ドラフトモデルスイートであるSpecBundleをリリースする。
SpecBundleは、投機的復号訓練レシピの体系的研究を通じて、コミュニティにおける高品質なドラフトの不足に対処し、我々のドラフトモデルは、SGLang上で最大4.48倍のエンドツーエンドの推論スピードアップを実現し、SpecForgeを現実世界の投機的復号展開の実践的基盤として確立した。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Spec-LLaVA: Accelerating Vision-Language Models with Dynamic Tree-Based Speculative Decoding [14.571291239004225]
Spec-LLaVAは、出力品質を犠牲にすることなく、Vision-Language Modelsを高速化するために投機的デコーディングを適用するシステムである。
MSの外部画像では、Spec-LLaVAはLLaVA-1.5 (7B, 13B)で最大3.28$times$高速デコードを達成する。
論文 参考訳(メタデータ) (2025-09-15T14:16:51Z) - DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding [12.069531378404632]
投機的復号化(SD)は,大規模言語モデル(LLM)における自己回帰生成を高速化する強力な手法として登場した。
視覚言語モデル(VLM)に適した新しい投機的復号化フレームワークであるDREAMを紹介する。
論文 参考訳(メタデータ) (2025-05-25T15:56:50Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。