論文の概要: Utility-Driven Speculative Decoding for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2506.20675v1
- Date: Tue, 17 Jun 2025 20:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.810256
- Title: Utility-Driven Speculative Decoding for Mixture-of-Experts
- Title(参考訳): Mixture-of-Expertsのためのユーティリティ駆動型投機的デコーディング
- Authors: Anish Saxena, Po-An Tsai, Hritvik Taneja, Aamer Jaleel, Moinuddin Qureshi,
- Abstract要約: 投機的復号化は軽量なドラフトラを使ってKトークンを提案し、これはLarge Language Modelが並列に検証し、トークンのスループットを向上する。
従来の高密度LLMでは、すべてのモデルウェイトがイテレーション毎に取得されるため、憶測は遅延オーバーヘッドを生じさせない。
ドラフトトークンは、合計でより多くの重みを活性化し、データ移動量を増やし、検証時間を2~3倍に増やす。
提案するユーティリティ駆動フレームワークであるCascadeは、投機を選択的に回避してスローダウンを回避し、Kを動的にチューニングしてMoE提供を加速する。
- 参考スコア(独自算出の注目度): 2.4497744376522603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU memory bandwidth is the main bottleneck for low-latency Large Language Model (LLM) inference. Speculative decoding leverages idle GPU compute by using a lightweight drafter to propose K tokens, which the LLM verifies in parallel, boosting token throughput. In conventional dense LLMs, all model weights are fetched each iteration, so speculation adds no latency overhead. Emerging Mixture of Experts (MoE) models activate only a subset of weights per token, greatly reducing data movement. However, we show that speculation is ineffective for MoEs: draft tokens collectively activate more weights, increasing data movement and verification time by 2-3x. When token throughput gains fail to offset this overhead, speculation causes slowdowns up to 1.5x, making it infeasible. Even when useful, the optimal K varies by task, model, and even between requests and iterations. Thus, despite widespread use in dense LLMs, speculation remains impractical in leading MoEs. We present Cascade, a utility-driven framework that selectively enables speculation to avoid slowdowns and dynamically tunes K to accelerate MoE serving. Cascade uses a lightweight metric, speculation utility, the ratio of token gains to verification cost, which shows iteration-level locality, enabling periodic decisions via short test and longer set phases. For each request, Cascade disables speculation if utility drops below one during testing, and when utility exceeds one, tests multiple K-values to choose the utility-maximizing K for the set phase. We implement Cascade in vLLM and evaluate it on five popular MoEs with workloads spanning code, math, extraction, and mixed tasks. Cascade limits slowdown to 5% (vs. 1.5x) and improves throughput by 7-14% over static K, making speculative decoding practical for MoEs.
- Abstract(参考訳): GPUメモリ帯域幅は、低レイテンシ大言語モデル(LLM)推論の主なボトルネックである。
投機的復号化は、軽量なドラフトラを使ってKトークンを提案することでアイドルGPU計算を活用する。
従来の高密度LLMでは、すべてのモデルウェイトがイテレーション毎に取得されるため、憶測は遅延オーバーヘッドを生じさせない。
Emerging Mixture of Experts (MoE)モデルはトークン当たりの重量のサブセットのみを活性化し、データ移動を大幅に削減する。
ドラフトトークンは合計で重みを活性化し、データの動きが増加し、検証時間が2~3倍になる。
トークンのスループット向上がこのオーバーヘッドを相殺できない場合、憶測は1.5倍のスローダウンを引き起こし、実現不可能になる。
たとえ有用であっても、最適なKはタスク、モデル、リクエストとイテレーションの間でも異なる。
したがって、高密度LLMで広く使われているにもかかわらず、MoEの先導には推測が実用的でない。
提案するユーティリティ駆動フレームワークであるCascadeは,投機によってスローダウンを回避し,Kを動的にチューニングしてMoE提供を促進させる。
Cascadeは軽量なメトリック、投機ユーティリティ、トークンゲインと検証コストの比率を使用して、イテレーションレベルの局所性を示し、短いテストとより長い設定フェーズによる定期的な決定を可能にする。
それぞれの要求に対して、カスケードは、テスト中にユーティリティが1以下になると推測を無効にし、ユーティリティが1を超えると、複数のK値を試して、設定フェーズのユーティリティ最大化Kを選択する。
私たちは、vLLMでCascadeを実装し、コード、数学、抽出、混合タスクにまたがるワークロードを備えた5つの人気のあるMoEでそれを評価します。
Cascadeはスローダウンを5%(vs.1.5x)に制限し、静的K上でのスループットを7-14%改善する。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。
局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。
MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-21T16:44:51Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。
我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文 参考訳(メタデータ) (2024-05-23T21:00:53Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - MoE-Infinity: Efficient MoE Inference on Personal Machines with Sparsity-Aware Expert Cache [15.826989637041907]
MoE-Infinityは、GPUメモリ容量に制限のあるパーソナルマシン向けに設計された効率的なMoE推論システムである。
選択されたトレースを分析することで、MoE-Infinityはエキスパートキャッシュの置換とプリフェッチをガイドし、トークン毎の3.1-16.7倍のレイテンシ改善を提供する。
論文 参考訳(メタデータ) (2024-01-25T18:07:50Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。