論文の概要: EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs
- arxiv url: http://arxiv.org/abs/2603.08088v1
- Date: Mon, 09 Mar 2026 08:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.704839
- Title: EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs
- Title(参考訳): EAGLE-Pangu: Ascend NPU上でのアクセラレータセーフツリー投機デコード
- Authors: Chang Han, Yijie Hu, Jingling Liu,
- Abstract要約: 本稿では,Acend NPU 上のPangu 教師バックエンドにツリー投機的デコーディングをポートするシステムを提案する。
Eagles-Panguはエンド・ツー・エンドの復号スループットを平均1.27倍改善し、p99では2.46倍に向上した。
- 参考スコア(独自算出の注目度): 5.19049674298842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive decoding remains a primary bottleneck in large language model (LLM) serving, motivating speculative decoding methods that reduce expensive teacher-model invocations by verifying multiple candidate tokens per step. Tree-structured speculation further increases parallelism, but is often brittle when ported across heterogeneous backends and accelerator stacks, where attention masking, KV-cache layouts, and indexing semantics are not interchangeable. We present EAGLE-Pangu, a reproducible system that ports EAGLE-3-style tree speculative decoding to a Pangu teacher backend on Ascend NPUs. EAGLE-Pangu contributes (i) an explicit branch/commit cache manager built on the Cache API, (ii) accelerator-safe tree tensorization that removes undefined negative indices by construction and validates structural invariants, and (iii) a fused-kernel-compatible teacher verification path with a debuggable eager fallback. On 240 turns from MT-Bench and HumanEval-style prompts, EAGLE-Pangu improves end-to-end decoding throughput by 1.27x on average, up to 2.46x at p99, over teacher-only greedy decoding in the fused-kernel performance path. We also provide a fused-kernel-free reference path with structured traces and invariant checks to support reproducible debugging and ablation across execution modes and tree budgets.
- Abstract(参考訳): 自己回帰復号化は、大規模言語モデル(LLM)における主要なボトルネックであり、ステップ毎に複数の候補トークンを検証することで、高価な教師モデル呼び出しを減らす投機的復号化手法を動機付けている。
木構造的憶測はさらに並列性を高めるが、アテンションマスキング、KV-cacheレイアウト、インデックス化セマンティクスが交換できない異種バックエンドやアクセラレータスタックに移植されると、しばしば不安定になる。
EAGLE-3スタイルのツリー投機デコーディングをAscend NPU上のPangu教師バックエンドに移植する再現可能なシステムであるEAGLE-Panguを提案する。
EAGLE-Pangu の貢献
i)Cache API上に構築された明示的なブランチ/コミットキャッシュマネージャ。
(ii) 構造不変量の構築と検証により未定義の負の指標を除去するアクセルセーフツリーのテンソル化
(三)デバッグし易いフォールバックを有する融合カーネル互換の教師検証パス。
MT-BenchとHumanEvalスタイルのプロンプトからの240ターンでは、EAGLE-Panguは平均で1.27倍、p99では2.46倍、融合カーネルのパフォーマンスパスでは教師のみのgreedyデコードよりも、エンドツーエンドのデコードスループットを改善する。
また、構造化トレースと不変チェックを備えた融合カーネルフリー参照パスを提供し、実行モードやツリー予算をまたいで再現可能なデバッグとアブレーションをサポートする。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - FastEagle: Cascaded Drafting for Accelerating Speculative Decoding [6.482154864678126]
我々はFastEagleを紹介します。FastEagleは非自己回帰的なカスケードのドラフトで、ドラフト全体を1つのフォワードパスで出力します。
FastEagleは、競争力のある受け入れ動作を維持しながら、強力な自己回帰型ドラフトラに対して、ウォールタイムの大幅なスピードアップを提供する。
論文 参考訳(メタデータ) (2025-09-24T09:38:32Z) - cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree [39.50252992647112]
大規模コード生成にはRAG(Retrieval-Augmented Generation)が不可欠である。
我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
論文 参考訳(メタデータ) (2025-06-18T17:31:51Z) - ProtInvTree: Deliberate Protein Inverse Folding with Reward-guided Tree Search [77.55575655986252]
ProtInvTreeはタンパク質逆フォールディングのための報酬誘導ツリー検索フレームワークである。
シークエンス生成は、意図的に、ステップワイズな意思決定プロセスとして再構成される。
検索深度と幅を広げて、再トレーニングすることなく、フレキシブルなテストタイムスケーリングをサポートする。
論文 参考訳(メタデータ) (2025-06-01T09:34:20Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive
Sparse Anchor Generation [50.01244854344167]
適応スパースアンカージェネレータ(ASAG)の提案により、スパース検出器と密度検出器のパフォーマンスギャップを橋渡しする。
ASAGは、グリッドではなくパッチの動的なアンカーを予測することで、機能競合の問題を軽減する。
提案手法は高密度な手法より優れ,高速かつ高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-08-18T02:06:49Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。