論文の概要: MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios
- arxiv url: http://arxiv.org/abs/2603.09983v1
- Date: Thu, 12 Feb 2026 04:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.522586
- Title: MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios
- Title(参考訳): MoE-SpAc:異種エッジシナリオにおける投機的活性化能に基づく効率的なMoE推定
- Authors: Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye,
- Abstract要約: Mixture-of-Experts (MoE)モデルはスケーラブルなパフォーマンスを実現するが、エッジデバイスでは厳しいメモリ制約に直面している。
我々は、専門家の要求を追跡するために、投機的ユーティリティエスタを統合するMoE推論フレームワークであるMoE-SpAcを紹介する。
7つのベンチマーク実験により、MoE-SpAcはSOTA SDベースラインよりもTPSが42%向上していることが示された。
- 参考スコア(独自算出の注目度): 12.409831039709886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models enable scalable performance but face severe memory constraints on edge devices. Existing offloading strategies struggle with I/O bottlenecks due to the dynamic, low-information nature of autoregressive expert activation. In this paper, we propose to repurpose Speculative Decoding (SD) not merely as a compute accelerator, but as an informative lookahead sensor for memory management, supported by our theoretical and empirical analyses. Hence, we introduce MoE-SpAc, an MoE inference framework that integrates a Speculative Utility Estimator to track expert demand, a Heterogeneous Workload Balancer to dynamically partition computation via online integer optimization, and an Asynchronous Execution Engine to unify the prefetching and eviction in the same utility space. Extensive experiments on seven benchmarks demonstrate that MoE-SpAc achieves a 42% improvement in TPS over the SOTA SD-based baseline, and an average 4.04x speedup over all standard baselines. Code is available at https://github.com/lshAlgorithm/MoE-SpAc .
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルはスケーラブルなパフォーマンスを実現するが、エッジデバイスでは厳しいメモリ制限に直面している。
既存のオフロード戦略は、自己回帰の専門家アクティベーションの動的で低情報な性質のために、I/Oボトルネックに苦しむ。
本稿では,メモリ管理のための情報的ルックアヘッドセンサとして,単に計算アクセラレータとしてだけではなく,我々の理論的および経験的分析によって支援された投機的復号化(SD)を再利用することを提案する。
そこで,本研究では,専門家の要求を追跡するための投機的ユーティリティ推定器と,オンライン整数最適化を通じて動的に計算を分割するヘテロジニアス・ワークロード・バランサと,同じユーティリティ空間におけるプリフェッチと終了を統一する非同期実行エンジンとを統合したMoE推論フレームワークであるMoE-SpAcを紹介する。
7つのベンチマークでの大規模な実験により、MoE-SpAcはSOTA SDベースのベースラインよりも42%改善され、標準ベースライン全体の平均4.04倍のスピードアップを達成した。
コードはhttps://github.com/lshAlgorithm/MoE-SpAc で公開されている。
関連論文リスト
- Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference [2.649774320778185]
我々は、専門家の精度を第一級、動的に管理されるリソースとして扱うランタイムシステムDynaExqを提案する。
我々は,DynaExqが5090とA6000のGPU上で大きなLLMをデプロイし,静的な低精度ベースラインに対して最大4.03ポイントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-19T01:27:54Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - CoMoE: Collaborative Optimization of Expert Aggregation and Offloading for MoE-based LLMs at Edge [28.961186929739082]
大規模言語モデル(LLM)は、計算コストを制御しながらモデルキャパシティをスケールする有望なソリューションとして、Mixture-of-Experts (MoE)アーキテクチャを採用した。
リソース制約のあるモバイルエッジコンピューティング環境にMoEモデルをデプロイすることは、大きなメモリフットプリントと動的専門家アクティベーションパターンのため、大きな課題となる。
本稿では,エキスパートアグリゲーションとオフロード戦略を協調的に最適化する,動的リソース対応協調最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:05:36Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。