Fugu-MT 論文翻訳(概要): A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

論文の概要: A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

arxiv url: http://arxiv.org/abs/2602.19938v1
Date: Mon, 23 Feb 2026 15:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.873715
Title: A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs
Title（参考訳）: Sparse Mixture-of-Experts LLMのプラグ・アンド・プレイロードバランシングにおけるリプリケート・アンド・量子化方式
Authors: Zijie Liu, Jie Peng, Jinhao Duan, Zirui Liu, Kaixiong Zhou, Mingfu Liang, Luke Simon, Xi Liu, Zhaozhuo Xu, Tianlong Chen,
Abstract要約: SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。 SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
参考スコア（独自算出の注目度）: 64.8510381475827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Mixture-of-Experts (SMoE) architectures are increasingly used to scale large language models efficiently, delivering strong accuracy under fixed compute budgets. However, SMoE models often suffer from severe load imbalance across experts, where a small subset of experts receives most tokens while others are underutilized. Prior work has focused mainly on training-time solutions such as routing regularization or auxiliary losses, leaving inference-time behavior, which is critical for deployment, less explored. We present a systematic analysis of expert routing during inference and identify three findings: (i) load imbalance persists and worsens with larger batch sizes, (ii) selection frequency does not reliably reflect expert importance, and (iii) overall expert workload and importance can be estimated using a small calibration set. These insights motivate inference-time mechanisms that rebalance workloads without retraining or router modification. We propose Replicate-and-Quantize (R&Q), a training-free and near-lossless framework for dynamic workload rebalancing. In each layer, heavy-hitter experts are replicated to increase parallel capacity, while less critical experts and replicas are quantized to remain within the original memory budget. We also introduce a Load-Imbalance Score (LIS) to measure routing skew by comparing heavy-hitter load to an equal allocation baseline. Experiments across representative SMoE models and benchmarks show up to 1.4x reduction in imbalance with accuracy maintained within +/-0.6%, enabling more predictable and efficient inference.
Abstract（参考訳）: SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われており、固定された計算予算の下で高い精度を提供する。しかしながら、SMoEモデルは専門家の間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。以前の作業では、ルーティングの正規化や補助的な損失といったトレーニング時のソリューションに重点を置いていた。推測中のエキスパートルーティングの系統的解析を行い、3つの知見を同定する。 i) 負荷不均衡は持続し、より大きなバッチサイズで悪化する。二選択頻度が専門家の重要さを確実に反映していないこと、三専門的作業量及び重要度を小キャリブレーションセットを用いて推定することができる。これらの洞察は、再トレーニングやルータの変更なしにワークロードを再バランスする推論時メカニズムを動機付けている。動的ワークロード再分散のためのトレーニング不要で、ほぼロスレスなフレームワークであるReplicate-and-Quantize(R&Q)を提案する。各レイヤにおいて、ヘビーヒッターの専門家は並列容量を増やすために複製されるが、クリティカルでない専門家やレプリカは、元のメモリ予算内に留まるように定量化される。また、重ヒッタ負荷と均等なアロケーションベースラインを比較することにより、ルーティングスキューを測定するロード・イムバランススコア(LIS)も導入する。代表的なSMoEモデルとベンチマークによる実験では、+/-0.6%の精度で精度が1.4倍に低下し、予測可能で効率的な推論が可能となった。

関連論文リスト

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization [3.6899131505284455]
学習後量子化(PTQ)は視覚言語モデル(VLM)の計算およびメモリオーバーヘッドを緩和する有効な手法として登場した。我々は、VLMの量子化のための混合専門家によるトークン対応適応誤差補償である textbfQuant Experts (QE) を提案する。
論文参考訳（メタデータ） (2026-02-27T14:47:48Z)
Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization [56.5199302532159]
本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。 Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。 Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
論文参考訳（メタデータ） (2026-02-07T15:50:18Z)
Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文参考訳（メタデータ） (2026-01-23T18:19:15Z)
What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文参考訳（メタデータ） (2026-01-21T11:22:29Z)
Selective Sinkhorn Routing for Improved Sparse Mixture of Experts [6.598611263174362]
SMOE(Sparse Mixture-of-Experts)はスケーラブルで計算効率の良いアーキテクチャとして注目されている。既存のSMoEモデルは、しばしば専門家の多様性を促進するために補助的な損失と追加の訓練可能なパラメータに依存している。 SSR(Selective Sinkhorn Routing)は、補助的損失を軽量なSinkhornベースのルーティングに置き換えるルーティング機構である。
論文参考訳（メタデータ） (2025-11-12T04:29:05Z)
Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文参考訳（メタデータ） (2025-06-16T22:22:59Z)
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文参考訳（メタデータ） (2025-05-02T08:51:55Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文参考訳（メタデータ） (2024-10-17T18:40:48Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。