論文の概要: MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs
- arxiv url: http://arxiv.org/abs/2510.19366v1
- Date: Wed, 22 Oct 2025 08:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.430093
- Title: MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs
- Title(参考訳): MoE-Prism: モデル-システム共設計による弾力的なMoEサービスのためのモノリシックエキスパートの分離
- Authors: Xinfeng Xia, Jiacheng Liu, Xiaofeng Hou, Peng Tang, Mingxuan Zhang, Wenfeng Wang, Chao Li,
- Abstract要約: MoE-Prismは、厳格なMoEモデルをエラスティックサービスに変換するモデルシステムの共同設計である。
評価の結果,MoE-Prismprovides はベースラインの4倍以上,安定な動作点であることがわかった。
これにより、厳格な予算で最大19.9%のスループットを動的に改善したり、限られたリソースで最大10.36%のレイテンシを削減できる。
- 参考スコア(独自算出の注目度): 17.827406818899536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models, the state-of-the-art in large-scale AI, achieve high quality by sparsely activating parameters. However, their reliance on routing between a few monolithic experts via a top-k mechanism creates a "quality cliff", offering only a few coarse-grained operating points. This inflexibility forces a difficult trade-off between cost and quality, preventing adaptation to diverse Service Level Objectives (SLOs) and leading to significant resource over-provisioning. This paper introduces MoE-Prism, a model-system co-design that transforms rigid MoE models into elastic services. Our methodology is divided into two phases. First, an \emph{Offline Refactoring Engine} systematically deconstructs monolithic experts into fine-grained "sub-experts." This engine employs a partitioning optimization solver that uses a metaheuristic-based approach to group neurons, preserving functional locality without requiring retraining. Second, an \emph{Online Scheduling Engine} leverages this new elasticity through QoS-aware scheduling. It implements specialized policies to solve complex system problems, including maximizing throughput in cloud deployments and managing latency-optimized offloading for memory-constrained devices. Our evaluation across three different MoE models shows that MoE-Prismprovides over 4 times more distinct, stable operating points than the baseline. This allows an AI service to dynamically improve throughput by up to 19.9\% under a strict latency budget or reduce latency by up to 10.36\% under limited resources. MoE-Prism provides the critical "control knob" to bridge the model-system gap, enabling the next generation of adaptive, efficient, and QoS-aware AI services.
- Abstract(参考訳): 大規模AIにおける最先端技術であるMixture-of-Experts(MoE)モデルは、パラメータをわずかに活性化することで高品質を実現する。
しかし、トップkメカニズムによるいくつかのモノリシックな専門家間のルーティングへの依存は、「高品質な崖」を生み出し、粗い粒度の操作ポイントしか提供しない。
この柔軟性はコストと品質のトレードオフを難しくし、多様なサービスレベルオブジェクト(SLO)への適応を防ぎ、リソースの過剰なプロビジョニングにつながる。
本稿では、剛性MoEモデルを弾性サービスに変換するモデル-システム共設計であるMoE-Prismを紹介する。
私たちの方法論は2つの段階に分けられる。
まず、'emph{Offline Refactoring Engine} はモノリシックな専門家をきめ細かな"サブエキスパート"に体系的に分解する。
このエンジンは、グループニューロンに対するメタヒューリスティックなアプローチを使用して、再トレーニングを必要とせずに機能的局所性を保存する分割最適化ソルバを使用する。
第二に、emph{Online Scheduling Engine}は、QoS対応のスケジューリングを通じて、この新しい弾力性を活用する。
クラウドデプロイメントにおけるスループットの最大化や、メモリ制限されたデバイスの遅延最適化オフロードの管理など、複雑なシステム問題を解決するための特殊なポリシを実装している。
その結果,MoE-Prismprovidesはベースラインの4倍以上,安定な動作点を持つことがわかった。
これにより、厳格なレイテンシ予算で最大19.9\%のスループットを動的に改善したり、制限されたリソースで最大10.36\%のレイテンシを削減できる。
MoE-Prismは、モデルシステムギャップを埋めるためのクリティカルな"コントロールノブ"を提供し、次世代の適応性、効率性、QoS対応AIサービスを可能にする。
関連論文リスト
- Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression [14.086434595924716]
Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
論文 参考訳(メタデータ) (2025-09-27T10:45:58Z) - CoMoE: Collaborative Optimization of Expert Aggregation and Offloading for MoE-based LLMs at Edge [28.961186929739082]
大規模言語モデル(LLM)は、計算コストを制御しながらモデルキャパシティをスケールする有望なソリューションとして、Mixture-of-Experts (MoE)アーキテクチャを採用した。
リソース制約のあるモバイルエッジコンピューティング環境にMoEモデルをデプロイすることは、大きなメモリフットプリントと動的専門家アクティベーションパターンのため、大きな課題となる。
本稿では,エキスパートアグリゲーションとオフロード戦略を協調的に最適化する,動的リソース対応協調最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:05:36Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。