論文の概要: Enabling MoE on the Edge via Importance-Driven Expert Scheduling
- arxiv url: http://arxiv.org/abs/2508.18983v1
- Date: Tue, 26 Aug 2025 12:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.838378
- Title: Enabling MoE on the Edge via Importance-Driven Expert Scheduling
- Title(参考訳): 重要度駆動型エキスパートスケジューリングによるエッジ上のMoEの実現
- Authors: Guoying Zhu, Meng Li, Haipeng Dai, Xuechen Liu, Weijun Wang, Keran Li, Jun xiao, Ligeng Chen, Wei Wang,
- Abstract要約: MoEは、クエリ毎に専門家のサブセットだけをアクティベートすることで、大規模言語モデルをスケールするための重要なテクニックである。
専門家の重要さを活用して意思決定をガイドし、GPUメモリにすでにキャッシュされている機能的に類似した専門家を、低キャッシュのアクティベートした専門家に置き換えます。
この設計はメモリ使用量とデータ転送量を削減し、PCIeのオーバーヘッドを大幅に削減する。
- 参考スコア(独自算出の注目度): 21.860330824352527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture of Experts (MoE) architecture has emerged as a key technique for scaling Large Language Models by activating only a subset of experts per query. Deploying MoE on consumer-grade edge hardware, however, is constrained by limited device memory, making dynamic expert offloading essential. Unlike prior work that treats offloading purely as a scheduling problem, we leverage expert importance to guide decisions, substituting low-importance activated experts with functionally similar ones already cached in GPU memory, thereby preserving accuracy. As a result, this design reduces memory usage and data transfer, while largely eliminating PCIe overhead. In addition, we introduce a scheduling policy that maximizes the reuse ratio of GPU-cached experts, further boosting efficiency. Extensive evaluations show that our approach delivers 48% lower decoding latency with over 60% expert cache hit rate, while maintaining nearly lossless accuracy.
- Abstract(参考訳): Mixture of Experts (MoE)アーキテクチャは,クエリ毎に専門家のサブセットのみをアクティベートすることで,大規模言語モデルをスケールするための重要なテクニックとして登場した。
しかし、コンシューマグレードのエッジハードウェアにMoEをデプロイすることは、デバイスメモリの制限によって制約されるため、動的専門家のオフロードが不可欠である。
オフロードを純粋にスケジューリング問題として扱う以前の作業とは異なり、私たちは専門家の重要度を活用して意思決定をガイドし、GPUメモリにすでにキャッシュされている機能的に類似した専門家を、重要度の高いアクティベートした専門家に代えて、精度を保ちます。
その結果、この設計はメモリ使用量とデータ転送量を削減し、PCIeのオーバーヘッドを大幅に削減した。
さらに,GPU専門家の再利用率を最大化し,効率を向上するスケジューリングポリシーを導入する。
大規模な評価の結果,提案手法は,ほぼロスレスの精度を維持しつつ,60%以上の専門家のキャッシュヒット率で,デコード遅延を48%低減することがわかった。
関連論文リスト
- MoE-Beyond: Learning-Based Expert Activation Prediction on Edge Devices [0.0]
自己回帰復号中に専門家のアクティベーションを予測するための学習ベースエキスパートアクティベーション予測器であるMoE-Beyondを紹介する。
我々の予測器は、WebGLM-QAデータセットからの見えないプロンプトを効果的に一般化し、97.5%の精度と86.6%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-08-23T20:28:32Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。