論文の概要: MoE-GPS: Guidlines for Prediction Strategy for Dynamic Expert Duplication in MoE Load Balancing
- arxiv url: http://arxiv.org/abs/2506.07366v1
- Date: Mon, 09 Jun 2025 02:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.781876
- Title: MoE-GPS: Guidlines for Prediction Strategy for Dynamic Expert Duplication in MoE Load Balancing
- Title(参考訳): MoE-GPS:MoEロードバランシングにおける動的エキスパート重複予測のためのガイダンス
- Authors: Haiyue Ma, Zhixu Du, Yiran Chen,
- Abstract要約: 本稿では,予測戦略,アキュラシー,オーバヘッド,エンド・ツー・エンドのシステム性能のトレードオフについて議論する。
我々は,様々なシステム構成下で最適な予測器設計を選択するためのフレームワークであるMoE-GPSを提案する。
具体的には,トークン全体の分布のみを予測する予測戦略である分散オンリー予測を提唱する。
- 参考スコア(独自算出の注目度): 4.858585703353624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-GPU Mixture-of-Experts (MoE) network, experts are distributed across different GPUs, which creates load imbalance as each expert processes different number of tokens. Recent works improve MoE inference load balance by dynamically duplicating popular experts to more GPUs to process excessive tokens, which requires predicting the distribution before routing. In this paper, we discuss the tradeoff of prediction strategies, accuracies, overhead, and end-to-end system performance. We propose MoE-GPS, a framework that guides the selection of the optimal predictor design under various system configurations, by quantifying the performance impact to system-level model runtime. Specifically, we advocate for Distribution-Only Prediction, a prediction strategy that only predicts overall token distribution which significantly reduces overhead compared to the traditional Token-to-Expert Prediction. On Mixtral 8x7B MMLU dataset, MoE-GPS suggests Distribution-Only Prediction which improves end-to-end inference performance by more than 23% compared with Token-to-Expert Prediction.
- Abstract(参考訳): マルチGPUMixture-of-Experts(MoE)ネットワークでは、専門家は異なるGPUに分散され、各専門家が異なる数のトークンを処理するときに負荷不均衡が発生する。
最近の研究は、ルーティング前に分散を予測する必要のある過剰なトークンを処理するために、人気のある専門家をより多くのGPUに動的に複製することで、MoE推論のロードバランシングを改善している。
本稿では,予測戦略,アキュラシー,オーバヘッド,エンド・ツー・エンドのシステム性能のトレードオフについて論じる。
システムレベルのモデル実行時の性能への影響を定量化することにより,様々なシステム構成下で最適な予測器設計を選択するためのフレームワークであるMoE-GPSを提案する。
具体的には,トークン全体の分布のみを予測する予測戦略である分散オンリー予測を提案し,従来のトークン間予測と比較してオーバーヘッドを大幅に削減する。
Mixtral 8x7B MMLUデータセットでは、MoE-GPSはToken-to-Expert予測と比較して、エンドツーエンドの推論性能を23%以上改善する分散オンリー予測を提案する。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - GAMDTP: Dynamic Trajectory Prediction with Graph Attention Mamba Network [0.0]
本稿では,動的軌跡予測に適したグラフアテンションに基づくネットワークGAMDTPを提案する。
GAMDTPは、ハイデフィニションマップ(HDマップ)データとエージェントの過去の軌跡座標を符号化する。
Argoverseデータセットの実験では、GAMDTPは動的軌道予測において優れた精度を達成している。
論文 参考訳(メタデータ) (2025-04-07T09:19:20Z) - Efficient pooling of predictions via kernel embeddings [0.24578723416255752]
確率的予測は、可能な結果の集合上の確率分布である。
それらは典型的には、個々の予測分布を線形にプールすることで結合される。
各予測に割り当てられた重量は、過去の性能に基づいて推定できる。
これは、いくつかのトレーニングデータに対して適切なスコアリングルールを最適化する重みを見つけることで達成できる。
論文 参考訳(メタデータ) (2024-11-25T10:04:37Z) - Pattern-Matching Dynamic Memory Network for Dual-Mode Traffic Prediction [11.99118889081249]
トラフィック予測のためのパターンマッチング動的メモリネットワーク(PM-DMNet)を提案する。
PM-DMNetは、O(N)複雑さだけでトラフィックパターンの特徴を捉えるために、新しい動的メモリネットワークを採用している。
提案モデルは既存のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2024-08-12T15:12:30Z) - Valeo4Cast: A Modular Approach to End-to-End Forecasting [93.86257326005726]
我々のソリューションはArgoverse 2 end-to-end Forecasting Challengeで63.82 mAPfでランクインした。
私たちは、知覚から予測までエンドツーエンドのトレーニングを通じて、このタスクに取り組む現在のトレンドから離れ、代わりにモジュラーアプローチを使用します。
私たちは、昨年の優勝者より+17.1ポイント、今年の優勝者より+13.3ポイント、予測結果を+17.1ポイント上回る。
論文 参考訳(メタデータ) (2024-06-12T11:50:51Z) - EDA: Evolving and Distinct Anchors for Multimodal Motion Prediction [27.480524917596565]
混合モデルに基づくマルチモーダル動作予測のための正および負の成分を定義するために,EDA(Evolving and Distinct Anchors)と呼ばれる新しいパラダイムを導入する。
EDAにより、アンカーは、拡張された回帰能力のために、特定のシーンで自分自身を進化させ、再分割することができる。
論文 参考訳(メタデータ) (2023-12-15T02:55:24Z) - Multi-Predictor Fusion: Combining Learning-based and Rule-based
Trajectory Predictors [31.577019509665643]
軌道予測モジュールは、自動運転車の安全かつ効率的な計画を可能にする重要な手段である。
本稿では,学習に基づく予測器の性能を向上させるMPF(Multi-predictor fusion)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-03T23:56:40Z) - Sinkhorn-Flow: Predicting Probability Mass Flow in Dynamical Systems
Using Optimal Transport [89.61692654941106]
そこで本稿では, 最適な輸送手段を用いて, 時間とともにそのような物質流を予測する新しい手法を提案する。
我々は、ソーシャルネットワークの設定において、コミュニティがどのように進化していくかを予測するタスクに、我々のアプローチを適用した。
論文 参考訳(メタデータ) (2023-03-14T07:25:44Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z) - Online Multi-Agent Forecasting with Interpretable Collaborative Graph
Neural Network [65.11999700562869]
複数の協調予測器からの予測を協調グラフに従って集約する新しい協調予測ユニット(CoPU)を提案する。
本手法は,3つのタスクの最先端処理を平均28.6%,17.4%,21.0%で上回っている。
論文 参考訳(メタデータ) (2021-07-02T08:20:06Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。