論文の概要: $φ$-Balancing for Mixture-of-Experts Training
- arxiv url: http://arxiv.org/abs/2605.15403v1
- Date: Thu, 14 May 2026 20:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.09685
- Title: $φ$-Balancing for Mixture-of-Experts Training
- Title(参考訳): $φ$-Balancing for Mixture-of-Experts Training
- Authors: Lizhang Chen, Jonathan Li, Qi Wang, Runlong Liao, Shuozhe Li, Chen Liang, Ni Lao, Qiang Liu,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、そのスケーラビリティを完全に実現するために、バランスのとれた専門家の利用に依存します。
我々は,厳密な凸性,対称性,および予測されるルーティング分布の微分ポテンシャルを最小化することにより,集団レベルの専門家バランスを直接ターゲットとする原則的フレームワークである$-balancingを提案する。
- 参考スコア(独自算出の注目度): 20.061328126956028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models rely on balanced expert utilization to fully realize their scalability. However, existing load-balancing methods are largely heuristic and operate on noisy mini-batch assignment statistics, introducing bias relative to population-level objectives. We propose $φ$-balancing, a principled framework that directly targets population-level expert balance by minimizing a strictly convex, symmetric, and differentiable potential of the expected routing distribution. Using convex duality, we derive an equivalent min-max formulation and obtain a simple online algorithm via mirror descent, yielding an efficient EMA-based routing adjustment with negligible overhead. Across large-scale pretraining and downstream fine-tuning, $φ$-balancing consistently outperforms prior Switch-style and loss-free baselines, demonstrating more stable and effective expert utilization.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、そのスケーラビリティを完全に実現するために、バランスのとれた専門家の利用に依存します。
しかし、既存の負荷分散手法は概ねヒューリスティックであり、人口レベルの目標に対するバイアスを導入してノイズの多いミニバッチ割り当て統計を運用している。
我々は,厳密な凸性,対称性,および予測されるルーティング分布の微分ポテンシャルを最小化することにより,集団レベルの専門家バランスを直接ターゲットとする原則的フレームワークである$φ$-balancingを提案する。
凸双対性(convex duality)を用いて、等価なmin-maxの定式化を導出し、ミラー降下による簡単なオンラインアルゴリズムを得る。
大規模な事前訓練と下流の微調整を通じて、$φ$-balancingはスイッチスタイルや損失のないベースラインよりも一貫して優れており、より安定的で効果的な専門家の活用を示している。
関連論文リスト
- SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention [19.076502375242352]
本稿では,モデル精度とシステム効率を協調的に最適化するために,スパース性とシーケンスの不均一性を利用するSparseBalanceを提案する。
まず,自由度に固有のトラグラーを除去するために,双方向のスペーサ性調整を利用するワークロード対応動的スペーサ性チューニングを提案する。
第二に、粗粒度スペーサ性チューニングを実現するためのスパーティアウェア戦略を提案する。これは、LongBenchベンチマークでは、長いコンテキスト能力を0.46%改善しつつ、スパースを最大1.33$times$ end-to-endのスピードアップに活用する。
論文 参考訳(メタデータ) (2026-04-15T13:18:07Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Benefits of Online Tilted Empirical Risk Minimization: A Case Study of Outlier Detection and Robust Regression [7.238889207632064]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、教師付き学習の基礎となるフレームワークである。
データが一度に1つのサンプルに到達するオンラインまたはストリーミング設定では、古典的なTERMは標準ERMに縮退する。
本稿では,従来の目的から対数を取り除き,新たな計算やメモリオーバーヘッドを伴わずに傾き効果を保存するオンラインTERMを提案する。
論文 参考訳(メタデータ) (2025-09-18T16:51:23Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts [0.0]
Latent Prototype Routing (LPR)は、下流のパフォーマンスを損なうことなく、専門家のバランスのとれた利用を促進する新しいルーティングフレームワークである。
LPRは、専門家負荷のジーニ係数を平均0.70から0.035に減らし、専門家負荷比を1e-6から0.070に改善し、ほぼ完全な負荷分散を実現する。
論文 参考訳(メタデータ) (2025-06-26T14:41:18Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。