論文の概要: A fast convergence algorithm based on binary integer programming for expert load balancing in MoE LLMs
- arxiv url: http://arxiv.org/abs/2502.15451v1
- Date: Fri, 21 Feb 2025 13:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:39.178081
- Title: A fast convergence algorithm based on binary integer programming for expert load balancing in MoE LLMs
- Title(参考訳): MoE LLMにおける専門家負荷分散のための二進整数計画に基づく高速収束アルゴリズム
- Authors: Yuan Sun,
- Abstract要約: 2進整数プログラミング(BIP)に基づく負荷分散アルゴリズムであるBIPに基づくバランシングを提案する。
本アルゴリズムは,シミュレーションの観点で,専門家の負荷バランスと事前学習効率のほぼ完全なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 2.609952801475146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MoE (Mixture-of-Expert) architectures appear frequently in large language models, and the number of experts can be over one hundred recently. However, the expert load imbalance problem always happens in MoE model pre-training, which will cause routing collapse or increased computational overhead. In order to balance loads on experts, we propose BIP-Based Balancing, an expert load balancing algorithm based on binary integer programming (BIP). The algorithm maintains an additional vector q that can help change the top-K order of s by solving a binary integer programming with very small time costs. In simulation experiments, we observe that BIP-Based Balancing make imbalance disappoint very fast, while the final sum of routine scores decreases very little. Our algorithm achieves nearly perfect trade-off between expert load balance and pre-training efficiency under the simulation view.
- Abstract(参考訳): MoE(Mixture-of-Expert)アーキテクチャは、大規模な言語モデルで頻繁に登場し、最近は100人を超える専門家がいる。
しかし、専門家の負荷不均衡問題は、常にMoEモデルの事前トレーニングで発生し、ルーティングの崩壊や計算オーバーヘッドの増大を引き起こす。
本稿では,2進整数プログラミング(BIP)に基づく負荷分散アルゴリズムであるBIP-Based Balancingを提案する。
このアルゴリズムは、非常に小さな時間コストで2進整数プログラミングを解くことで、sのトップK順序を変更するのに役立つベクトル q を新たに維持する。
シミュレーション実験では,BIPに基づくバランシングが不均衡を非常に速くするのに対して,定期的なスコアの最終的な総和はわずかに減少する。
本アルゴリズムは,シミュレーションの観点で,専門家の負荷バランスと事前学習効率のほぼ完全なトレードオフを実現する。
関連論文リスト
- Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文 参考訳(メタデータ) (2025-02-05T20:47:44Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Training Multi-Layer Binary Neural Networks With Local Binary Error Signals [3.7740044597960316]
バックプロパゲートされた完全精度勾配の計算を必要としないBNN(Binary Neural Networks)のための多層学習アルゴリズムを提案する。
提案アルゴリズムは, 局所的二進誤差信号と二進重み更新に基づいて, シナプス的メタ可塑性機構として機能する整数値の隠蔽重みを用いる。
BMLPのマルチクラス画像分類ベンチマークにおいて、バイナリネイティブで勾配のない方法で完全に訓練された実験結果は、+13.36%の精度向上を示している。
論文 参考訳(メタデータ) (2024-11-28T09:12:04Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [36.51973134478652]
深度(MoD)の混合は、重要でない層をスキップすることで計算深度を動的に調整する。
MoDアプローチの主な課題は2つある: 1) 重要なレイヤをバイパスする際のパフォーマンス劣化のリスクを回避できるルータとともに、モデル全体をトレーニングする必要があるため、トレーニングコストが高くなる。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として、動的深さで注意を配置するMindSkipを提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - BADM: Batch ADMM for Deep Learning [35.39258144247444]
勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
論文 参考訳(メタデータ) (2024-06-30T20:47:15Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing [3.9094872570262456]
MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。
この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。
論文 参考訳(メタデータ) (2024-04-25T15:39:59Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Improvable Gap Balancing for Multi-Task Learning [15.582333026781004]
マルチタスク学習(MTL)のための2つの新しいIGBアルゴリズムを提案する。
1つは単純で、もう1つは(初めて)MTLのための深層強化学習をデプロイする。
我々の IGB アルゴリズムは損失分散による MTL の最良の結果をもたらし、勾配分散と組み合わせることでさらなる改善を実現する。
論文 参考訳(メタデータ) (2023-07-28T09:26:03Z) - Communication-Efficient Federated Bilevel Optimization with Local and
Global Lower Level Problems [118.00379425831566]
我々はFedBiOAccという通信効率の高いアルゴリズムを提案する。
我々は、FedBiOAcc-Localがこの種の問題に対して同じ速度で収束していることを証明する。
実験結果から,アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-02-13T21:28:53Z) - Differentiable Bilevel Programming for Stackelberg Congestion Games [47.60156422249365]
Stackelberg Congestion Game (SCG) において、リーダーは、群集が集まる平衡状態を予測し、操作することで、自身の利益を最大化することを目的としている。
本稿では,従来の手法と機械学習における最新の微分可能プログラミング技術を組み合わせることで,この計算課題に挑戦する。
本稿では,SCGの局所探索アルゴリズムを2つ提案する。第1に,微分可能プログラミングを用いてILDをアンロールすることで導関数を求める勾配降下アルゴリズムを提案する。
第二のアルゴリズムは、フォロワーの進化軌道を短くすることでツイストを加える。
論文 参考訳(メタデータ) (2022-09-15T21:32:23Z) - Quantum Topological Data Analysis with Linear Depth and Exponential
Speedup [9.820545418277305]
我々はQTDAアルゴリズムを完全にオーバーホールし、$O(n4/(epsilon2 delta))の指数的高速化深度を改良した。
理論的誤差解析とベッチ数推定のための回路・計算時間・深度複雑度について述べる。
論文 参考訳(メタデータ) (2021-08-05T18:56:17Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。