論文の概要: From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing
- arxiv url: http://arxiv.org/abs/2510.03293v1
- Date: Mon, 29 Sep 2025 16:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.724643
- Title: From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing
- Title(参考訳): スコア分布からバランスへ:Plug-and-Play Mixture-of-Experts Routing
- Authors: Rana Shahout, Colin Cai, Yilun Du, Minlan Yu, Michael Mitzenmacher,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
- 参考スコア(独自算出の注目度): 52.01745035243826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models can scale parameter capacity by routing each token to a subset of experts through a learned gate function. While conditional routing reduces training costs, it shifts the burden on inference memory: expert parameters and activations consume memory, limiting the number of experts per device. As tokens are routed, some experts become overloaded while others are underutilized. Because experts are mapped to GPUs, this imbalance translates directly into degraded system performance in terms of latency, throughput, and cost. We present LASER, a plug-and-play, inference-time routing algorithm that balances load while preserving accuracy. LASER adapts to the shape of the gate's score distribution. When scores provide a clear preference, it routes to the strongest experts; when scores are more uniform, it broadens the set of viable experts and routes to the least-loaded among them. Because LASER relies only on gate scores from a trained model, it integrates directly into existing MoE inference pipelines without retraining or finetuning. We evaluate LASER on Mixtral-8x7B and DeepSeek-MoE-16b-chat across four datasets (ARC-Easy, ARC-Challenge, MMLU, and GSM8K). LASER improves load balancing, translating into lower latency and higher throughput, while keeping the accuracy changes negligible.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、学習ゲート関数を通じて各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングはトレーニングコストを削減しますが、専門家パラメータとアクティベーションがメモリを消費し、デバイス毎に専門家の数を制限するという、推論メモリの負担をシフトします。
トークンがルーティングされると、一部の専門家は過負荷になり、他の専門家は未使用となる。
専門家はGPUにマップされるため、この不均衡は、レイテンシ、スループット、コストといった面で、システムパフォーマンスの劣化に直接変換される。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
レーザーはゲートのスコア分布の形状に適応する。
スコアが明確な選好を提供する場合、最強の専門家にルートする。スコアがより均一な場合には、実行可能な専門家のセットを広げ、最も負荷の少ない専門家へのルートを広げる。
LASERはトレーニングされたモデルのゲートスコアのみに依存するため、トレーニングや微調整なしに既存のMoE推論パイプラインに直接統合する。
我々は,Mixtral-8x7BとDeepSeek-MoE-16b-chatを4つのデータセット(ARC-Easy,ARC-Challenge,MMLU,GSM8K)で評価した。
LASERはロードバランシングを改善し、レイテンシの低減とスループットの向上を実現している。
関連論文リスト
- Load Balancing Mixture of Experts with Similarity Preserving Routers [37.348178220494226]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。
MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。
本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:34:36Z) - ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models [43.29533894162248]
LLMの開発には、大量のデータに基づく基礎モデルの事前トレーニングと、専門的な専門家を作成するためのタスク固有のデータの微調整が含まれる。
以前のアプローチでは、事前訓練された重みとデルタ重みとして専門家の重みを分解し、続いてデルタ重みを定量化してモデルサイズを減少させた。
複数のLLMを提供するのに適したメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。
論文 参考訳(メタデータ) (2024-06-13T12:27:55Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。