論文の概要: A Scheduling Framework for Efficient MoE Inference on Edge GPU-NDP Systems
- arxiv url: http://arxiv.org/abs/2601.03992v1
- Date: Wed, 07 Jan 2026 15:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.66498
- Title: A Scheduling Framework for Efficient MoE Inference on Edge GPU-NDP Systems
- Title(参考訳): エッジGPU-NDPシステムにおける効率的なMoE推論のためのスケジューリングフレームワーク
- Authors: Qi Wu, Chao Fang, Jiayuan Chen, Ye Lin, Yueqi Zhang, Yichuan Bai, Yuan Du, Li Du,
- Abstract要約: Mixture-of-Experts(MoE)モデルは、モデルキャパシティをアクティブな計算から切り離すことでエッジデプロイメントを容易にするが、その大きなメモリフットプリントは、専門家を専用の処理ユニットにオフロードするほぼデータ処理機能を備えたGPUシステムの必要性を促進する。
エッジベースのGPU-NDPシステムにMoEモデルをデプロイするには、3つの重要な課題がある。1) 非均一な専門家選択と専門家並列性によるNDPユニット間の負荷不均衡、2)NDPユニット内でのエキスパート計算におけるGPU利用不足、3)予測不能な専門家アクティベーションパターンによって必要となる広範なデータ事前プロファイリング。
- 参考スコア(独自算出の注目度): 28.86723467729703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models facilitate edge deployment by decoupling model capacity from active computation, yet their large memory footprint drives the need for GPU systems with near-data processing (NDP) capabilities that offload experts to dedicated processing units. However, deploying MoE models on such edge-based GPU-NDP systems faces three critical challenges: 1) severe load imbalance across NDP units due to non-uniform expert selection and expert parallelism, 2) insufficient GPU utilization during expert computation within NDP units, and 3) extensive data pre-profiling necessitated by unpredictable expert activation patterns for pre-fetching. To address these challenges, this paper proposes an efficient inference framework featuring three key optimizations. First, the underexplored tensor parallelism in MoE inference is exploited to partition and compute large expert parameters across multiple NDP units simultaneously towards edge low-batch scenarios. Second, a load-balancing-aware scheduling algorithm distributes expert computations across NDP units and GPU to maximize resource utilization. Third, a dataset-free pre-fetching strategy proactively loads frequently accessed experts to minimize activation delays. Experimental results show that our framework enables GPU-NDP systems to achieve 2.41x on average and up to 2.56x speedup in end-to-end latency compared to state-of-the-art approaches, significantly enhancing MoE inference efficiency in resource-constrained environments.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルは、モデルキャパシティをアクティブな計算から切り離すことでエッジデプロイメントを容易にするが、その大きなメモリフットプリントは、専門家を専用の処理ユニットにオフロードする、ニアデータ処理(NDP)機能を備えたGPUシステムの必要性を促進する。
しかし、エッジベースのGPU-NDPシステムにMoEモデルをデプロイすることは、3つの重要な課題に直面している。
1) NDP単位間の負荷不均衡は, 非均一な専門家の選択と専門家の並列性に起因する。
2)NDP単位内におけるエキスパート計算におけるGPU利用の不足
3)プレフェッチには予測不可能な専門家アクティベーションパターンが必要とされる。
これらの課題に対処するために,3つの重要な最適化を特徴とする効率的な推論フレームワークを提案する。
まず、MoE推論における探索されていないテンソル並列性を利用して、複数のNDPユニット間で大きな専門家パラメータを分割し、同時にエッジローバッチシナリオに向けて計算する。
第二に、負荷分散を考慮したスケジューリングアルゴリズムは、NDPユニットとGPUに専門家の計算を分散し、資源利用を最大化する。
第三に、データセットのないプレフェッチ戦略は、アクティベーション遅延を最小限に抑えるために、頻繁にアクセスされた専門家を積極的にロードする。
実験結果から,GPU-NDP システムは最先端の手法に比べて平均2.41倍,エンドツーエンドのレイテンシでは最大2.56倍の高速化を実現し,資源制約下でのMoE推定効率を著しく向上することが示された。
関連論文リスト
- Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism [32.0077995747942]
FinDEPは、タスクオーバーラップを最大化し、MoE推論スループットを改善するDEPのためのきめ細かいタスクスケジューリングアルゴリズムである。
DeepSeek-V2とQwen3-MoEの4つのGPUシステムの実験では、FinDEPは以前の方法よりも最大1.61倍のスループット向上を示している。
論文 参考訳(メタデータ) (2025-12-25T03:22:03Z) - Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing [29.98726492279776]
Mixture-of-Experts (MoE) は大規模言語モデルにおいて支配的なアーキテクチャとなっている。
MoEsはメモリ集約型パラメータキャッシングによって高い推論コストを発生させる。
サーバーレスコンピューティングに適した異種MOE推論システムであるRemoeを提案する。
論文 参考訳(メタデータ) (2025-12-21T10:27:50Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Efficient Edge LLMs Deployment via HessianAware Quantization and CPU GPU Collaborative [31.74122603714625]
Mixture of Experts (MoE)アーキテクチャは、スパースアクティベーションによってモデルのキャパシティを向上させる。
MoEは実践的な展開において2つの大きな困難に直面している。
メモリ制限下では、専門家モジュールの効率的なオフロードと協調的な推論は、レイテンシとスループットのバランスをとるのに苦労する。
本稿では,Hessian-Aware Quantization (HAQ)とCPU-GPU協調推論に基づく効率的なMoEエッジ配置方式を提案する。
論文 参考訳(メタデータ) (2025-08-10T12:59:57Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。