論文の概要: DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge
- arxiv url: http://arxiv.org/abs/2603.19172v1
- Date: Thu, 19 Mar 2026 17:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.298869
- Title: DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge
- Title(参考訳): DyMoE: エッジ上での効率的なMoE推論のための混合精度量子化による動的エキスパートオーケストレーション
- Authors: Yuegui Huang, Zhiyuan Fang, Weiqi Luo, Ruoyu Wu, Wuhui Chen, Zibin Zheng,
- Abstract要約: 高速エッジ推論のための動的混合精度量子化フレームワークDyMoEを提案する。
我々は、DyMoEが、最先端のオフロードベースラインと比較して、Time-Per-Output-Token(TPOT)において、Time-to-First-Tokenを3.44x-22.7x、14.58倍のスピードアップすることを示す。
- 参考スコア(独自算出の注目度): 49.3949520091098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the computational efficiency of MoE models, the excessive memory footprint and I/O overhead inherent in multi-expert architectures pose formidable challenges for real-time inference on resource-constrained edge platforms. While existing static methods struggle with a rigid latency-accuracy trade-off, we observe that expert importance is highly skewed and depth-dependent. Motivated by these insights, we propose DyMoE, a dynamic mixed-precision quantization framework designed for high-performance edge inference. Leveraging insights into expert importance skewness and depth-dependent sensitivity, DyMoE introduces: (1) importance-aware prioritization to dynamically quantize experts at runtime; (2) depth-adaptive scheduling to preserve semantic integrity in critical layers; and (3) look-ahead prefetching to overlap I/O stalls. Experimental results on commercial edge hardware show that DyMoE reduces Time-to-First-Token (TTFT) by 3.44x-22.7x and up to a 14.58x speedup in Time-Per-Output-Token (TPOT) compared to state-of-the-art offloading baselines, enabling real-time, accuracy-preserving MoE inference on resource-constrained edge devices.
- Abstract(参考訳): MoEモデルの計算効率にもかかわらず、マルチエキスパートアーキテクチャに固有のメモリフットプリントとI/Oオーバーヘッドは、リソース制約のあるエッジプラットフォーム上でのリアルタイム推論に重大な課題をもたらす。
既存の静的メソッドは、厳密なレイテンシ精度のトレードオフに苦慮していますが、専門家の重要性は非常に歪んでいて、深さに依存しています。
これらの知見により、我々はハイパフォーマンスエッジ推論用に設計された動的混合精度量子化フレームワークDyMoEを提案する。
DyMoEは、専門家の重要度と深度依存感度に関する洞察を活用して、(1)実行時に専門家を動的に定量化するための重要度認識の優先順位付け、(2)クリティカルレイヤにおけるセマンティックな整合性を維持するための深度適応スケジューリング、(3)I/Oストールを重複させるルックアヘッドプリフェッチを導入している。
商用エッジハードウェアの実験結果によると、DyMoEはリソース制約されたエッジデバイス上でのリアルタイムで精度の高いMoE推論を可能にするため、Time-to-First-Token(TTFT)を3.44x-22.7x削減し、Time-Per-Output-Token(TPOT)の14.58倍の高速化を実現した。
関連論文リスト
- PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Federated Fine-Tuning of Sparsely-Activated Large Language Models on Resource-Constrained Devices [41.84571097603175]
大規模言語モデル (LLM) のファインチューニングは, 膨大な計算量と参加者の資源制約のため, 困難である。
制約コンピューティングリソースの参加者間でMoEベースのLLMの微調整を可能にするシステムであるFLUXを提案する。
FLUXは既存の手法よりも優れており、時間と精度で最大4.75倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-08-26T14:39:00Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。