論文の概要: A fast convergence algorithm based on binary integer programming for expert load balancing in MoE LLMs
- arxiv url: http://arxiv.org/abs/2502.15451v1
- Date: Fri, 21 Feb 2025 13:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:59.642235
- Title: A fast convergence algorithm based on binary integer programming for expert load balancing in MoE LLMs
- Title(参考訳): MoE LLMにおける専門家負荷分散のための二進整数計画に基づく高速収束アルゴリズム
- Authors: Yuan Sun,
- Abstract要約: 2進整数プログラミング(BIP)に基づく負荷分散アルゴリズムであるBIPに基づくバランシングを提案する。
本アルゴリズムは,シミュレーションの観点で,専門家の負荷バランスと事前学習効率のほぼ完全なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 2.609952801475146
- License:
- Abstract: MoE (Mixture-of-Expert) architectures appear frequently in large language models, and the number of experts can be over one hundred recently. However, the expert load imbalance problem always happens in MoE model pre-training, which will cause routing collapse or increased computational overhead. In order to balance loads on experts, we propose BIP-Based Balancing, an expert load balancing algorithm based on binary integer programming (BIP). The algorithm maintains an additional vector q that can help change the top-K order of s by solving a binary integer programming with very small time costs. In simulation experiments, we observe that BIP-Based Balancing make imbalance disappoint very fast, while the final sum of routine scores decreases very little. Our algorithm achieves nearly perfect trade-off between expert load balance and pre-training efficiency under the simulation view.
- Abstract(参考訳): MoE(Mixture-of-Expert)アーキテクチャは、大規模な言語モデルで頻繁に登場し、最近は100人を超える専門家がいる。
しかし、専門家の負荷不均衡問題は、常にMoEモデルの事前トレーニングで発生し、ルーティングの崩壊や計算オーバーヘッドの増大を引き起こす。
本稿では,2進整数プログラミング(BIP)に基づく負荷分散アルゴリズムであるBIP-Based Balancingを提案する。
このアルゴリズムは、非常に小さな時間コストで2進整数プログラミングを解くことで、sのトップK順序を変更するのに役立つベクトル q を新たに維持する。
シミュレーション実験では,BIPに基づくバランシングが不均衡を非常に速くするのに対して,定期的なスコアの最終的な総和はわずかに減少する。
本アルゴリズムは,シミュレーションの観点で,専門家の負荷バランスと事前学習効率のほぼ完全なトレードオフを実現する。
関連論文リスト
- Training Multi-Layer Binary Neural Networks With Local Binary Error Signals [3.7740044597960316]
バックプロパゲートされた完全精度勾配の計算を必要としないBNN(Binary Neural Networks)のための多層学習アルゴリズムを提案する。
提案アルゴリズムは, 局所的二進誤差信号と二進重み更新に基づいて, シナプス的メタ可塑性機構として機能する整数値の隠蔽重みを用いる。
BMLPのマルチクラス画像分類ベンチマークにおいて、バイナリネイティブで勾配のない方法で完全に訓練された実験結果は、+13.36%の精度向上を示している。
論文 参考訳(メタデータ) (2024-11-28T09:12:04Z) - Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing [3.9094872570262456]
MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。
この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。
論文 参考訳(メタデータ) (2024-04-25T15:39:59Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Improvable Gap Balancing for Multi-Task Learning [15.582333026781004]
マルチタスク学習(MTL)のための2つの新しいIGBアルゴリズムを提案する。
1つは単純で、もう1つは(初めて)MTLのための深層強化学習をデプロイする。
我々の IGB アルゴリズムは損失分散による MTL の最良の結果をもたらし、勾配分散と組み合わせることでさらなる改善を実現する。
論文 参考訳(メタデータ) (2023-07-28T09:26:03Z) - Communication-Efficient Federated Bilevel Optimization with Local and
Global Lower Level Problems [118.00379425831566]
我々はFedBiOAccという通信効率の高いアルゴリズムを提案する。
我々は、FedBiOAcc-Localがこの種の問題に対して同じ速度で収束していることを証明する。
実験結果から,アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-02-13T21:28:53Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Quantum Topological Data Analysis with Linear Depth and Exponential
Speedup [9.820545418277305]
我々はQTDAアルゴリズムを完全にオーバーホールし、$O(n4/(epsilon2 delta))の指数的高速化深度を改良した。
理論的誤差解析とベッチ数推定のための回路・計算時間・深度複雑度について述べる。
論文 参考訳(メタデータ) (2021-08-05T18:56:17Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。