論文の概要: MoE-Beyond: Learning-Based Expert Activation Prediction on Edge Devices
- arxiv url: http://arxiv.org/abs/2508.17137v1
- Date: Sat, 23 Aug 2025 20:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.362879
- Title: MoE-Beyond: Learning-Based Expert Activation Prediction on Edge Devices
- Title(参考訳): MoE-Beyond: エッジデバイス上での学習ベースのエキスパートアクティベーション予測
- Authors: Nishant Gavhane, Arush Mehrotra, Rohit Chawla, Peter Proenca,
- Abstract要約: 自己回帰復号中に専門家のアクティベーションを予測するための学習ベースエキスパートアクティベーション予測器であるMoE-Beyondを紹介する。
我々の予測器は、WebGLM-QAデータセットからの見えないプロンプトを効果的に一般化し、97.5%の精度と86.6%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of large-scale Mixture-of-Experts (MoE) models on edge devices presents significant challenges due to memory constraints. While MoE architectures enable efficient utilization of computational resources by activating only a subset of experts per inference, they require careful memory management to operate efficiently in resource-constrained environments. Traditional heuristic-based expert caching strategies such as MoE-Infinity struggle to maintain high cache hit rates as models parameters scale. In this work, we introduce MoE-Beyond, a learning-based expert activation predictor trained to predict expert activations during autoregressive decoding. By framing the task as a multi-label sequence prediction problem, we train a lightweight transformer model on 66 million expert activation traces extracted from LDJnr-Puffin dataset [5] using DeepSeek-V2-Chat-Lite MoE. Our predictor generalizes effectively across unseen prompts from WebGLM-QA dataset [6], achieving 97.5% accuracy and an 86.6% F1-score. Simulation results show that MoE-Beyond improves GPU cache hit rate from 17% to 72% when only 10% of experts fit in GPU cache, outperforming heuristic baselines.
- Abstract(参考訳): エッジデバイスへの大規模なMixture-of-Experts(MoE)モデルのデプロイは、メモリ制約による大きな課題を呈している。
MoEアーキテクチャは、推論毎に専門家のサブセットだけを活性化することで、計算資源の効率的な利用を可能にするが、リソース制約のある環境で効率的に運用するには、注意深いメモリ管理が必要である。
MoE-Infinityのような従来のヒューリスティックな専門家キャッシング戦略は、モデルパラメータがスケールするにつれて、高いキャッシュヒット率を維持するのに苦労する。
本研究では,自己回帰復号時のエキスパートアクティベーションを予測するための学習ベースエキスパートアクティベーション予測器であるMoE-Beyondを紹介する。
タスクをマルチラベルシーケンス予測問題とすることで,DeepSeek-V2-Chat-Lite MoEを用いてLDJnr-Puffinデータセット[5]から抽出した6600万のエキスパートアクティベーショントレースに対して,軽量トランスフォーマーモデルをトレーニングする。
我々の予測器は、WebGLM-QAデータセット [6] からの見えないプロンプトを効果的に一般化し、97.5%の精度と86.6%のF1スコアを達成した。
シミュレーションの結果、MoE-BeyondはGPUキャッシュに適合する専門家の10%しかいない場合、GPUキャッシュのヒット率を17%から72%に改善し、ヒューリスティックベースラインを上回っている。
関連論文リスト
- MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models [36.730689832979365]
MoTEは、密なチェックポイントからMixture-of-Ternary-Expertsモデルをトレーニングするためのスケーラブルでメモリ効率のよいアプローチである。
MoTEはメモリフットプリントを低くしながら、完全精度のベースラインであるMoE-LLaVAに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-17T11:53:49Z) - PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval [36.9586523272496]
Mixture-of-experts (MoE) アーキテクチャにより、計算コストの比例的な増加を伴わずに、大規模言語モデル(LLM)を膨大なパラメータ数に拡張することができる。
しかし、大規模なMoEモデルの重要なメモリ需要は、様々な計算環境への展開を妨げる。
メモリに制約のある環境において,大規模MOEモデルの効率的な展開を可能にする新しいフレームワークであるPreMoeを紹介する。
論文 参考訳(メタデータ) (2025-05-23T08:59:16Z) - eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference [6.642099288463585]
大規模言語モデル(LLM)のためのメモリ効率の良い推論システムeMoEを提案する。
eMoEは、専門家ルーティングの繰り返しパターンに基づいて、必要な専門家のみを予測およびロードすることで、メモリ使用量を削減する。
また、処理のプロンプトが40倍長くなり、バッチが4.5倍大きくなり、スループットが1.5倍向上する。
論文 参考訳(メタデータ) (2025-03-10T01:11:52Z) - fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving [9.956997242640728]
fMoEは、MoEサービスのためのきめ細かい専門家のオフロードシステムである。
我々はfMoEが推論遅延を47%削減し、最先端ソリューションよりも専門家のヒット率を36%向上することを示した。
論文 参考訳(メタデータ) (2025-02-07T22:51:17Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。