論文の概要: MoE-Spec: Expert Budgeting for Efficient Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.16052v1
- Date: Tue, 17 Feb 2026 22:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.452038
- Title: MoE-Spec: Expert Budgeting for Efficient Speculative Decoding
- Title(参考訳): MoE-Spec: 効率的な投機的デコーディングのためのエキスパート予算
- Authors: Bradley McDanel, Steven Li, Sruthikesh Surineni, Harshit Khaitan,
- Abstract要約: 本稿では,メモリコストから投機深度を分離する訓練不要な専門家予算化手法を提案する。
複数のモデルスケールとデータセットにわたる実験により、この手法は最先端の投機的デコードベースラインよりも10-30%高いスループットが得られることが示された。
- 参考スコア(独自算出の注目度): 4.064682810747041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates Large Language Model (LLM) inference by verifying multiple drafted tokens in parallel. However, for Mixture-of-Experts (MoE) models, this parallelism introduces a severe bottleneck: large draft trees activate many unique experts, significantly increasing memory pressure and diminishing speedups from speculative decoding relative to autoregressive decoding. Prior methods reduce speculation depth when MoE verification becomes expensive. We propose MoE-Spec, a training-free verification-time expert budgeting method that decouples speculation depth from memory cost by enforcing a fixed expert capacity limit at each layer, loading only the experts that contribute most to verification and dropping the long tail of rarely used experts that drive bandwidth overhead. Experiments across multiple model scales and datasets show that this method yields 10--30\% higher throughput than state-of-the-art speculative decoding baselines (EAGLE-3) at comparable quality, with flexibility to trade accuracy for further latency reductions through tighter budgets.
- Abstract(参考訳): 投機的復号化は、複数の起草されたトークンを並列に検証することで、Large Language Model (LLM)推論を加速する。
しかし、Mixture-of-Experts(MoE)モデルでは、この並列性は深刻なボトルネックをもたらしている。
従来の手法は、MoE検証が高価になったときの投機深度を低減する。
我々は,各層に一定の専門家容量制限を課し,検証に最も貢献する専門家のみをロードし,帯域幅のオーバーヘッドを駆動する稀な専門家の長い尾を落として,メモリコストから投機的深度を分離する,トレーニング不要な検証時間専門家予算手法であるMoE-Specを提案する。
複数のモデルスケールとデータセットにわたる実験により、この手法は最先端の投機的デコードベースライン(EAGLE-3)よりも10-30\%高いスループットが得られることが示され、より厳格な予算によるさらなる遅延削減のために、精度のトレードオフが可能である。
関連論文リスト
- TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification [63.65902785448346]
投機的復号化は、その軽量なドラフトと並列検証機構を通じて、大幅なスピードアップを提供する。
計算コストを大幅に削減する軽量なプロキシを新たに導入した3次SDフレームワークであるTriSpecを提案する。
Qwen3およびDeepSeek-R1-Distill-Qwen/LLaMAファミリーの実験は、TriSpecが標準SDよりも最大35%のスピードアップを達成したことを示している。
論文 参考訳(メタデータ) (2026-01-30T17:04:18Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - SpecPV: Improving Self-Speculative Decoding for Long-Context Generation via Partial Verification [11.366541829206199]
投機的復号化は、生成を加速するための最も直接的で効果的なアプローチの1つである。
部分鍵値状態を用いた高速な検証を行う自己投機的復号法であるSpecPVを導入する。
LLaMA-3.1-8B-Instruct や Qwen3-Series など,複数の長文ベンチマークやモデルで SpecPV を検証する。
論文 参考訳(メタデータ) (2025-12-02T02:15:33Z) - Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining [34.97996720624093]
トークンから専門家へのマッピングを動的に再ルーティングするフレームワークを導入し、MoEレイテンシを低くする。
バッチサイズが16ドルであるQwen3-30BおよびQwen3-235Bモデルについて評価を行った。
論文 参考訳(メタデータ) (2025-11-04T04:00:20Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。
本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。
さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。