論文の概要: Binary-Integer-Programming Based Algorithm for Expert Load Balancing in Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2502.15451v2
- Date: Thu, 20 Mar 2025 14:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.00468
- Title: Binary-Integer-Programming Based Algorithm for Expert Load Balancing in Mixture-of-Experts Models
- Title(参考訳): 知識混合モデルにおけるエキスパート負荷分散のためのバイナリ整数プログラミングに基づくアルゴリズム
- Authors: Yuan Sun,
- Abstract要約: 2進整数プログラミング(BIP)に基づく負荷分散アルゴリズムであるBIPに基づくバランシングを提案する。
16-expert (0.3B) と 64-expert (1.1B) の2つのMoE言語モデルにアルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 2.609952801475146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For pre-training of MoE (Mixture-of-Experts) models, one of the main issues is unbalanced expert loads, which may cause routing collapse or increased computational overhead. Existing methods contain the Loss-Controlled method and the Loss-Free method, where both the unbalanced degrees at first several training steps are still high and decrease slowly. In this work, we propose BIP-Based Balancing, an expert load balancing algorithm based on binary integer programming (BIP). The algorithm maintains an additional vector q on each MoE layer that can help change the top-K order of s by solving a binary integer programming with very small time costs. We implement the algorithm on two MoE language models: 16-expert (0.3B) and 64-expert (1.1B). The experimental results show that on both models comparing with the Loss-Controlled method and the Loss-Free method, our algorithm trains models with the lowest perplexities, while saves at least 13% of pre-training time compared with the Loss-Controlled method. Within our current knowledge, this is the first routing algorithm that achieves maintaining load balance status on every expert in every MoE layer from the first step to the last step during the whole pre-training process, while the trained MoE models also perform well. The code material of this work is available at https://github.com/sunyuanLLM/bip_routing_algorithm.
- Abstract(参考訳): MoE(Mixture-of-Experts)モデルの事前トレーニングでは、主要な問題のひとつは未バランスな専門家負荷であり、ルーティングの崩壊や計算オーバーヘッドの増加を引き起こす可能性がある。
既存の手法にはLoss-Controlled法とLoss-Free法が含まれており、最初の数回のトレーニングステップにおける2つのアンバランスな度合いは高く、ゆっくりと減少する。
本研究では,バイナリ整数計画法(BIP)に基づく負荷分散アルゴリズムであるBIP-Based Balancingを提案する。
このアルゴリズムは各MoE層にベクトル q を付加し、非常に小さな時間コストで2進整数プログラミングを解くことで、s のトップ K の順序を変更するのに役立つ。
16-expert (0.3B) と 64-expert (1.1B) の2つのMoE言語モデルにアルゴリズムを実装した。
実験の結果,Loss-Controlled法とLoss-Free法を比較したモデルでは,我々のアルゴリズムは,Loss-Controlled法と比較して,トレーニング前時間の少なくとも13%を節約しながら,最も難易度の高いモデルを訓練することがわかった。
現在の知識の中では、トレーニング前のプロセス全体において、最初のステップから最後のステップまで、すべてのMoE層のエキスパートのロードバランス状態を維持する最初のルーティングアルゴリズムです。
この作業のコード資料はhttps://github.com/sunyuanLLM/bip_routing_algorithm.comで公開されている。
関連論文リスト
- Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文 参考訳(メタデータ) (2025-02-05T20:47:44Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Training Multi-Layer Binary Neural Networks With Local Binary Error Signals [3.7740044597960316]
バックプロパゲートされた完全精度勾配の計算を必要としないBNN(Binary Neural Networks)のための多層学習アルゴリズムを提案する。
提案アルゴリズムは, 局所的二進誤差信号と二進重み更新に基づいて, シナプス的メタ可塑性機構として機能する整数値の隠蔽重みを用いる。
BMLPのマルチクラス画像分類ベンチマークにおいて、バイナリネイティブで勾配のない方法で完全に訓練された実験結果は、+13.36%の精度向上を示している。
論文 参考訳(メタデータ) (2024-11-28T09:12:04Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [36.51973134478652]
深度(MoD)の混合は、重要でない層をスキップすることで計算深度を動的に調整する。
MoDアプローチの主な課題は2つある: 1) 重要なレイヤをバイパスする際のパフォーマンス劣化のリスクを回避できるルータとともに、モデル全体をトレーニングする必要があるため、トレーニングコストが高くなる。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として、動的深さで注意を配置するMindSkipを提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - BADM: Batch ADMM for Deep Learning [35.39258144247444]
勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
論文 参考訳(メタデータ) (2024-06-30T20:47:15Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing [3.9094872570262456]
MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。
この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。
論文 参考訳(メタデータ) (2024-04-25T15:39:59Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Improvable Gap Balancing for Multi-Task Learning [15.582333026781004]
マルチタスク学習(MTL)のための2つの新しいIGBアルゴリズムを提案する。
1つは単純で、もう1つは(初めて)MTLのための深層強化学習をデプロイする。
我々の IGB アルゴリズムは損失分散による MTL の最良の結果をもたらし、勾配分散と組み合わせることでさらなる改善を実現する。
論文 参考訳(メタデータ) (2023-07-28T09:26:03Z) - Communication-Efficient Federated Bilevel Optimization with Local and
Global Lower Level Problems [118.00379425831566]
我々はFedBiOAccという通信効率の高いアルゴリズムを提案する。
我々は、FedBiOAcc-Localがこの種の問題に対して同じ速度で収束していることを証明する。
実験結果から,アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-02-13T21:28:53Z) - Differentiable Bilevel Programming for Stackelberg Congestion Games [47.60156422249365]
Stackelberg Congestion Game (SCG) において、リーダーは、群集が集まる平衡状態を予測し、操作することで、自身の利益を最大化することを目的としている。
本稿では,従来の手法と機械学習における最新の微分可能プログラミング技術を組み合わせることで,この計算課題に挑戦する。
本稿では,SCGの局所探索アルゴリズムを2つ提案する。第1に,微分可能プログラミングを用いてILDをアンロールすることで導関数を求める勾配降下アルゴリズムを提案する。
第二のアルゴリズムは、フォロワーの進化軌道を短くすることでツイストを加える。
論文 参考訳(メタデータ) (2022-09-15T21:32:23Z) - Quantum Topological Data Analysis with Linear Depth and Exponential
Speedup [9.820545418277305]
我々はQTDAアルゴリズムを完全にオーバーホールし、$O(n4/(epsilon2 delta))の指数的高速化深度を改良した。
理論的誤差解析とベッチ数推定のための回路・計算時間・深度複雑度について述べる。
論文 参考訳(メタデータ) (2021-08-05T18:56:17Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。