論文の概要: A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs
- arxiv url: http://arxiv.org/abs/2602.19938v1
- Date: Mon, 23 Feb 2026 15:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.873715
- Title: A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs
- Title(参考訳): Sparse Mixture-of-Experts LLMのプラグ・アンド・プレイロードバランシングにおけるリプリケート・アンド・量子化方式
- Authors: Zijie Liu, Jie Peng, Jinhao Duan, Zirui Liu, Kaixiong Zhou, Mingfu Liang, Luke Simon, Xi Liu, Zhaozhuo Xu, Tianlong Chen,
- Abstract要約: SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
- 参考スコア(独自算出の注目度): 64.8510381475827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (SMoE) architectures are increasingly used to scale large language models efficiently, delivering strong accuracy under fixed compute budgets. However, SMoE models often suffer from severe load imbalance across experts, where a small subset of experts receives most tokens while others are underutilized. Prior work has focused mainly on training-time solutions such as routing regularization or auxiliary losses, leaving inference-time behavior, which is critical for deployment, less explored. We present a systematic analysis of expert routing during inference and identify three findings: (i) load imbalance persists and worsens with larger batch sizes, (ii) selection frequency does not reliably reflect expert importance, and (iii) overall expert workload and importance can be estimated using a small calibration set. These insights motivate inference-time mechanisms that rebalance workloads without retraining or router modification. We propose Replicate-and-Quantize (R&Q), a training-free and near-lossless framework for dynamic workload rebalancing. In each layer, heavy-hitter experts are replicated to increase parallel capacity, while less critical experts and replicas are quantized to remain within the original memory budget. We also introduce a Load-Imbalance Score (LIS) to measure routing skew by comparing heavy-hitter load to an equal allocation baseline. Experiments across representative SMoE models and benchmarks show up to 1.4x reduction in imbalance with accuracy maintained within +/-0.6%, enabling more predictable and efficient inference.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われており、固定された計算予算の下で高い精度を提供する。
しかしながら、SMoEモデルは専門家の間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
以前の作業では、ルーティングの正規化や補助的な損失といったトレーニング時のソリューションに重点を置いていた。
推測中のエキスパートルーティングの系統的解析を行い、3つの知見を同定する。
i) 負荷不均衡は持続し、より大きなバッチサイズで悪化する。
二 選択頻度が専門家の重要さを確実に反映していないこと、
三 専門的作業量及び重要度を小キャリブレーションセットを用いて推定することができる。
これらの洞察は、再トレーニングやルータの変更なしにワークロードを再バランスする推論時メカニズムを動機付けている。
動的ワークロード再分散のためのトレーニング不要で、ほぼロスレスなフレームワークであるReplicate-and-Quantize(R&Q)を提案する。
各レイヤにおいて、ヘビーヒッターの専門家は並列容量を増やすために複製されるが、クリティカルでない専門家やレプリカは、元のメモリ予算内に留まるように定量化される。
また、重ヒッタ負荷と均等なアロケーションベースラインを比較することにより、ルーティングスキューを測定するロード・イムバランススコア(LIS)も導入する。
代表的なSMoEモデルとベンチマークによる実験では、+/-0.6%の精度で精度が1.4倍に低下し、予測可能で効率的な推論が可能となった。
関連論文リスト
- Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Selective Sinkhorn Routing for Improved Sparse Mixture of Experts [6.598611263174362]
SMOE(Sparse Mixture-of-Experts)はスケーラブルで計算効率の良いアーキテクチャとして注目されている。
既存のSMoEモデルは、しばしば専門家の多様性を促進するために補助的な損失と追加の訓練可能なパラメータに依存している。
SSR(Selective Sinkhorn Routing)は、補助的損失を軽量なSinkhornベースのルーティングに置き換えるルーティング機構である。
論文 参考訳(メタデータ) (2025-11-12T04:29:05Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文 参考訳(メタデータ) (2024-10-17T18:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。