論文の概要: Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding
- arxiv url: http://arxiv.org/abs/2605.00342v1
- Date: Fri, 01 May 2026 01:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.816311
- Title: Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding
- Title(参考訳): MoE 投機的復号化のための適応的検証
- Authors: Lehan Pan, Ziyang Tao, Ruoyu Pang, Xiao Wang, Jianjun Zhao, Yanyong Zhang,
- Abstract要約: ツリーベースの投機的復号化は、複数のドラフト候補を並列に検証することで自己回帰生成を加速するが、この利点はスパース・ミックス・オブ・エクササイズ(MoE)モデルでは弱まる。
我々は,MoE投機的復号化のためのトレーニング不要,ハイパーパラメータフリー,ロスレス適応検証手法EVICTを提案する。
EVICTは、目標検証の前にドラフトツリーを切断し、コスト効率の良いプレフィックスのみを保持することで、検証済みのトークンを全てカウントする。
- 参考スコア(独自算出の注目度): 15.040000425985324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree-based speculative decoding accelerates autoregressive generation by verifying multiple draft candidates in parallel, but this advantage weakens for sparse Mixture-of-Experts (MoE) models. As the draft tree grows, different branches activate different experts, expanding the union of activated experts and substantially increasing target-side verification cost. We propose EVICT, a training-free, hyperparameter-free, and lossless adaptive verification method for MoE speculative decoding. EVICT makes every verified token count by truncating the draft tree before target verification and retaining only the cost-effective prefix. It leverages fine-grained drafter signals to estimate candidate benefit, combines them with offline-profiled verification cost, and remains highly compatible with the high-performance graph-based serving framework SGLang. Extensive experiments on diverse MoE backbones and benchmarks show that EVICT achieves up to 2.35x speedup over autoregressive decoding and an average 1.21x speedup over the state-of-the-art baseline EAGLE-3, while significantly reducing unnecessary expert activations during verification.
- Abstract(参考訳): ツリーベースの投機的復号化は、複数のドラフト候補を並列に検証することで自己回帰生成を加速するが、この優位性はスパース・ミックス・オブ・エクササイズ(MoE)モデルでは弱まる。
ドラフトツリーが成長するにつれて、異なるブランチが異なる専門家を活性化し、アクティベートされた専門家の連合を拡大し、ターゲット側の検証コストを大幅に増加させます。
我々は,MoE投機復号のためのトレーニング不要,ハイパーパラメータフリー,ロスレス適応検証手法であるEVICTを提案する。
EVICTは、目標検証の前にドラフトツリーを切断し、コスト効率の良いプレフィックスのみを保持することで、検証済みのトークンを全てカウントする。
詳細なドラフト信号を利用して、候補の利点を推定し、それらをオフラインで確認するコストと組み合わせ、高性能なグラフベースのサービスフレームワークであるSGLangと高い互換性を維持します。
多様なMoEバックボーンとベンチマークに関する広範な実験により、EVICTは自動回帰デコードよりも最大2.35倍のスピードアップを実現し、最先端のEAGLE-3よりも平均1.21倍のスピードアップを実現し、検証中に不要な専門家のアクティベーションを著しく低減した。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - MoE-Spec: Expert Budgeting for Efficient Speculative Decoding [4.064682810747041]
本稿では,メモリコストから投機深度を分離する訓練不要な専門家予算化手法を提案する。
複数のモデルスケールとデータセットにわたる実験により、この手法は最先端の投機的デコードベースラインよりも10-30%高いスループットが得られることが示された。
論文 参考訳(メタデータ) (2026-02-17T22:02:36Z) - TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification [63.65902785448346]
投機的復号化は、その軽量なドラフトと並列検証機構を通じて、大幅なスピードアップを提供する。
計算コストを大幅に削減する軽量なプロキシを新たに導入した3次SDフレームワークであるTriSpecを提案する。
Qwen3およびDeepSeek-R1-Distill-Qwen/LLaMAファミリーの実験は、TriSpecが標準SDよりも最大35%のスピードアップを達成したことを示している。
論文 参考訳(メタデータ) (2026-01-30T17:04:18Z) - Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding [29.402164743559]
ReSpecは、ドラフト作成を適応的な意思決定に変換する新しいフレームワークである。
Spec-Benchの実験では、ReSpecの最先端アクセラレーションはそれぞれ33%以上と25%以上を達成している。
論文 参考訳(メタデータ) (2025-11-03T06:57:16Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。