論文の概要: Binary-Integer-Programming Based Algorithm for Expert Load Balancing in Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2502.15451v2
- Date: Thu, 20 Mar 2025 14:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:38.164247
- Title: Binary-Integer-Programming Based Algorithm for Expert Load Balancing in Mixture-of-Experts Models
- Title(参考訳): 知識混合モデルにおけるエキスパート負荷分散のためのバイナリ整数プログラミングに基づくアルゴリズム
- Authors: Yuan Sun,
- Abstract要約: 2進整数プログラミング(BIP)に基づく負荷分散アルゴリズムであるBIPに基づくバランシングを提案する。
16-expert (0.3B) と 64-expert (1.1B) の2つのMoE言語モデルにアルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 2.609952801475146
- License:
- Abstract: For pre-training of MoE (Mixture-of-Experts) models, one of the main issues is unbalanced expert loads, which may cause routing collapse or increased computational overhead. Existing methods contain the Loss-Controlled method and the Loss-Free method, where both the unbalanced degrees at first several training steps are still high and decrease slowly. In this work, we propose BIP-Based Balancing, an expert load balancing algorithm based on binary integer programming (BIP). The algorithm maintains an additional vector q on each MoE layer that can help change the top-K order of s by solving a binary integer programming with very small time costs. We implement the algorithm on two MoE language models: 16-expert (0.3B) and 64-expert (1.1B). The experimental results show that on both models comparing with the Loss-Controlled method and the Loss-Free method, our algorithm trains models with the lowest perplexities, while saves at least 13% of pre-training time compared with the Loss-Controlled method. Within our current knowledge, this is the first routing algorithm that achieves maintaining load balance status on every expert in every MoE layer from the first step to the last step during the whole pre-training process, while the trained MoE models also perform well. The code material of this work is available at https://github.com/sunyuanLLM/bip_routing_algorithm.
- Abstract(参考訳): MoE(Mixture-of-Experts)モデルの事前トレーニングでは、主要な問題のひとつは未バランスな専門家負荷であり、ルーティングの崩壊や計算オーバーヘッドの増加を引き起こす可能性がある。
既存の手法にはLoss-Controlled法とLoss-Free法が含まれており、最初の数回のトレーニングステップにおける2つのアンバランスな度合いは高く、ゆっくりと減少する。
本研究では,バイナリ整数計画法(BIP)に基づく負荷分散アルゴリズムであるBIP-Based Balancingを提案する。
このアルゴリズムは各MoE層にベクトル q を付加し、非常に小さな時間コストで2進整数プログラミングを解くことで、s のトップ K の順序を変更するのに役立つ。
16-expert (0.3B) と 64-expert (1.1B) の2つのMoE言語モデルにアルゴリズムを実装した。
実験の結果,Loss-Controlled法とLoss-Free法を比較したモデルでは,我々のアルゴリズムは,Loss-Controlled法と比較して,トレーニング前時間の少なくとも13%を節約しながら,最も難易度の高いモデルを訓練することがわかった。
現在の知識の中では、トレーニング前のプロセス全体において、最初のステップから最後のステップまで、すべてのMoE層のエキスパートのロードバランス状態を維持する最初のルーティングアルゴリズムです。
この作業のコード資料はhttps://github.com/sunyuanLLM/bip_routing_algorithm.comで公開されている。
関連論文リスト
- Training Multi-Layer Binary Neural Networks With Local Binary Error Signals [3.7740044597960316]
バックプロパゲートされた完全精度勾配の計算を必要としないBNN(Binary Neural Networks)のための多層学習アルゴリズムを提案する。
提案アルゴリズムは, 局所的二進誤差信号と二進重み更新に基づいて, シナプス的メタ可塑性機構として機能する整数値の隠蔽重みを用いる。
BMLPのマルチクラス画像分類ベンチマークにおいて、バイナリネイティブで勾配のない方法で完全に訓練された実験結果は、+13.36%の精度向上を示している。
論文 参考訳(メタデータ) (2024-11-28T09:12:04Z) - Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing [3.9094872570262456]
MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。
この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。
論文 参考訳(メタデータ) (2024-04-25T15:39:59Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Improvable Gap Balancing for Multi-Task Learning [15.582333026781004]
マルチタスク学習(MTL)のための2つの新しいIGBアルゴリズムを提案する。
1つは単純で、もう1つは(初めて)MTLのための深層強化学習をデプロイする。
我々の IGB アルゴリズムは損失分散による MTL の最良の結果をもたらし、勾配分散と組み合わせることでさらなる改善を実現する。
論文 参考訳(メタデータ) (2023-07-28T09:26:03Z) - Communication-Efficient Federated Bilevel Optimization with Local and
Global Lower Level Problems [118.00379425831566]
我々はFedBiOAccという通信効率の高いアルゴリズムを提案する。
我々は、FedBiOAcc-Localがこの種の問題に対して同じ速度で収束していることを証明する。
実験結果から,アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-02-13T21:28:53Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Quantum Topological Data Analysis with Linear Depth and Exponential
Speedup [9.820545418277305]
我々はQTDAアルゴリズムを完全にオーバーホールし、$O(n4/(epsilon2 delta))の指数的高速化深度を改良した。
理論的誤差解析とベッチ数推定のための回路・計算時間・深度複雑度について述べる。
論文 参考訳(メタデータ) (2021-08-05T18:56:17Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。