論文の概要: Speculating Experts Accelerates Inference for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2603.19289v1
- Date: Mon, 09 Mar 2026 06:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.847734
- Title: Speculating Experts Accelerates Inference for Mixture-of-Experts
- Title(参考訳): スペシャリストの推測はミス・オブ・エクスプロイトの推論を加速させる
- Authors: Vivan Madan, Prajwal Singhania, Abhinav Bhatele, Tom Goldstein, Ashwinee Panda,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、大規模言語モデル(LLM)のキャパシティを拡大する手段として人気を集めている。
本稿では、現在計算されている内部モデル表現を活用して、将来の専門家を推測するエキスパートプレフェッチ方式を提案する。
提案手法は,CPUメモリからのエキスパートのオンデマンドロードよりも,出力トークン当たりの最大14%の時間短縮を実現する。
- 参考スコア(独自算出の注目度): 44.31811859704714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) models have gained popularity as a means of scaling the capacity of large language models (LLMs) while maintaining sparse activations and reduced per-token compute. However, in memory-constrained inference settings, expert weights must be offloaded to CPU, creating a performance bottleneck from CPU-GPU transfers during decoding. We propose an expert prefetching scheme that leverages currently computed internal model representations to speculate future experts, enabling memory transfers to overlap with computation. Across multiple MoE architectures, we demonstrate that future experts can be reliably predicted by these internal representations. We also demonstrate that executing speculated experts generally maintains downstream task accuracy, thus preserving more effective compute-memory overlap by eliminating the need to re-fetch true router-selected experts. Integrated into an optimized inference engine, our approach achieves up to 14\% reduction in time per output token (TPOT) over on-demand loading of experts from CPU memory. For MoEs where speculative execution alone yields suboptimal accuracy, we further examine lightweight estimators that improve expert prediction hit rates, thereby reducing performance degradation. Our code is released in open-source at https://github.com/axonn-ai/yalis/tree/offload_prefetch.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、大きな言語モデル(LLM)のキャパシティを拡大する手段として人気を博し、スパースアクティベーションを維持し、トーケン毎の計算量を削減している。
しかし、メモリ制約のある推論設定では、専門家の重み付けをCPUにオフロードする必要があるため、デコード時にCPU-GPU転送のパフォーマンスボトルネックが発生する。
本稿では、現在計算されている内部モデル表現を活用して、将来の専門家を推測し、メモリ転送と計算の重複を可能にするエキスパートプリフェッチ方式を提案する。
複数のMoEアーキテクチャにおいて、これらの内部表現によって将来の専門家を確実に予測できることを実証する。
また、推測された専門家の実行は、一般的に下流のタスク精度を維持し、真のルータ選択されたエキスパートを再フェッチする必要をなくし、より効率的な計算-メモリオーバーラップを保存することを実証する。
提案手法は最適化推論エンジンに統合され,CPUメモリからの専門家をオンデマンドでロードするよりも,最大14倍の時間で出力トークン(TPOT)を削減できる。
投機的実行だけで準最適精度が得られるMoEに対して、専門家の予測ヒット率を改善する軽量な推定器をさらに検討し、性能劣化を低減させる。
私たちのコードはhttps://github.com/axonn-ai/yalis/tree/offload_prefetchでオープンソースとして公開されています。
関連論文リスト
- Enabling MoE on the Edge via Importance-Driven Expert Scheduling [21.860330824352527]
MoEは、クエリ毎に専門家のサブセットだけをアクティベートすることで、大規模言語モデルをスケールするための重要なテクニックである。
専門家の重要さを活用して意思決定をガイドし、GPUメモリにすでにキャッシュされている機能的に類似した専門家を、低キャッシュのアクティベートした専門家に置き換えます。
この設計はメモリ使用量とデータ転送量を削減し、PCIeのオーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-26T12:32:09Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。