論文の概要: P-EAGLE: Parallel-Drafting EAGLE with Scalable Training
- arxiv url: http://arxiv.org/abs/2602.01469v1
- Date: Sun, 01 Feb 2026 22:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.802693
- Title: P-EAGLE: Parallel-Drafting EAGLE with Scalable Training
- Title(参考訳): P-EAGLE: スケーラブルトレーニングによる並列描画EAGLE
- Authors: Mude Hui, Xin Huang, Jaime Campos Salas, Yue Sun, Nathan Pemberton, Xiang Song, Ashish Khetan, George Karypis,
- Abstract要約: 推論 LLM はより長い出力を生成し、拡張シーケンスで訓練された投機的復号化プロダクタを必要とする。
P(arallel)-EAGLEは,学習可能な共有隠れ状態を通じて,Eagleを自己回帰から並列マルチトークン予測に変換する。
- 参考スコア(独自算出の注目度): 35.56491584958455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning LLMs produce longer outputs, requiring speculative decoding drafters trained on extended sequences. Parallel drafting - predicting multiple tokens per forward pass - offers latency benefits over sequential generation, but training complexity scales quadratically with the product of sequence length and parallel positions, rendering long-context training impractical. We present P(arallel)-EAGLE, which transforms EAGLE from autoregressive to parallel multi-token prediction via a learnable shared hidden state. To scale training to long contexts, we develop a framework featuring attention mask pre-computation and sequence partitioning techniques, enabling gradient accumulation within individual sequences for parallel-prediction training. We implement P-EAGLE in vLLM and demonstrate speedups of 1.10-1.36x over autoregressive EAGLE-3 across GPT-OSS 120B, 20B, and Qwen3-Coder 30B.
- Abstract(参考訳): 推論 LLM はより長い出力を生成し、拡張シーケンスで訓練された投機的復号化プロダクタを必要とする。
並列ドラフト - 複数のトークンをフォワードパス毎に予測する - は、シーケンシャル世代よりもレイテンシのメリットを提供するが、トレーニングの複雑さは、シーケンス長と並列位置の積の2倍にスケールし、長いコンテキストのトレーニングを非現実的にする。
P(arallel)-EAGLE は,EAGLE を自己回帰から並列マルチトークン予測へ,学習可能な共有隠れ状態を通じて変換する。
長いコンテキストにトレーニングを拡大するため,注意マスクの前処理とシーケンス分割を特徴とするフレームワークを開発し,並列予測トレーニングのための個々のシーケンス内での勾配蓄積を可能にする。
我々は,P-EAGLEをvLLMに実装し,GPT-OSS 120B,20B,Qwen3-Coder 30Bにまたがる自己回帰EAGLE-3上での1.10-1.36xの高速化を示す。
関連論文リスト
- Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning [24.858548048614878]
B-spline Encoded Action Sequence Tokenizer (BEAST)について述べる。
BEAST は B-splines を用いて、アクションシーケンスをコンパクトな離散トークンまたは連続トークンにエンコードする。
BEASTは166のシミュレーションタスクと8つの実世界のタスクからなる3つの異なるロボット設定からなる3つの確立されたベンチマークで評価した。
論文 参考訳(メタデータ) (2025-06-06T13:26:16Z) - FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism [33.23902060961886]
既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。
この問題に対処する不均一適応列並列化法を提案する。
論文 参考訳(メタデータ) (2024-12-02T14:16:03Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。