論文の概要: Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2408.15664v1
- Date: Wed, 28 Aug 2024 09:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:21:03.647583
- Title: Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts
- Title(参考訳): 混合実験における補助損失のない負荷分散戦略
- Authors: Lean Wang, Huazuo Gao, Chenggang Zhao, Xu Sun, Damai Dai,
- Abstract要約: 不均衡な専門家の負荷は、ルーティングの崩壊や計算オーバーヘッドの増加につながる。
本稿では,ロバストな負荷分散戦略を特徴とするロスフリーバランシングを提案する。
最大200Bトークンでトレーニングされた最大3Bパラメータを持つMoEモデル上でのロスフリーバランシングの性能を検証する。
- 参考スコア(独自算出の注目度): 13.413587367600444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For Mixture-of-Experts (MoE) models, an unbalanced expert load will lead to routing collapse or increased computational overhead. Existing methods commonly employ an auxiliary loss to encourage load balance, but a large auxiliary loss will introduce non-negligible interference gradients into training and thus impair the model performance. In order to control load balance while not producing undesired gradients during training, we propose Loss-Free Balancing, featured by an auxiliary-loss-free load balancing strategy. To be specific, before the top-K routing decision, Loss-Free Balancing will first apply an expert-wise bias to the routing scores of each expert. By dynamically updating the bias of each expert according to its recent load, Loss-Free Balancing can consistently maintain a balanced distribution of expert load. In addition, since Loss-Free Balancing does not produce any interference gradients, it also elevates the upper bound of model performance gained from MoE training. We validate the performance of Loss-Free Balancing on MoE models with up to 3B parameters trained on up to 200B tokens. Experimental results show that Loss-Free Balancing achieves both better performance and better load balance compared with traditional auxiliary-loss-controlled load balancing strategies.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルでは、アンバランスな専門家負荷がルーティングの崩壊や計算オーバーヘッドの増加につながる。
既存の手法では、負荷バランスを促進するために補助的損失を用いるが、大きな補助的損失は訓練に無視できない干渉勾配をもたらし、モデル性能を損なう。
学習中に不要な勾配を生じずに負荷バランスを制御するため,ロスフリーバランス(Los-Free Balancing)を提案する。
具体的には、トップKルーティング決定の前に、Los-Free Balancingはまず、各エキスパートのルーティングスコアに専門家的なバイアスを適用する。
最近の負荷に応じて各専門家のバイアスを動的に更新することで、Los-Free Balancingはエキスパート負荷のバランスの取れた分布を一貫して維持できる。
さらに、ロスフリーバランシングは干渉勾配を生じさせないため、MoEトレーニングから得られるモデル性能の上限も上昇する。
最大200Bトークンでトレーニングされた最大3Bパラメータを持つMoEモデル上でのロスフリーバランシングの性能を検証する。
実験結果から,ロスフリーバランシングは従来の補助損失制御型ロードバランシング戦略と比較して,性能と負荷バランシングの両立を実現していることがわかった。
関連論文リスト
- Mind the Graph When Balancing Data for Fairness or Robustness [73.03155969727038]
データバランシングのためのトレーニングディストリビューションの条件を定義し、公正またはロバストなモデルに導く。
その結果、多くの場合、バランスの取れた分布は、望ましくない依存関係を選択的に除去することには対応しないことがわかった。
その結果,データバランシングを行う前に因果グラフを考慮に入れることの重要性を強調した。
論文 参考訳(メタデータ) (2024-06-25T10:16:19Z) - Simplifying Neural Network Training Under Class Imbalance [77.39968702907817]
実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。
クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊な損失関数、サンプリング技術、または2段階のトレーニング手順に焦点を当てている。
バッチサイズやデータ拡張,ラベルの平滑化といった,標準的なディープラーニングパイプラインの既存のコンポーネントを単にチューニングするだけで,そのような特殊なクラス不均衡な手法を使わずに,最先端のパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2023-12-05T05:52:44Z) - Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。
この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。
1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文 参考訳(メタデータ) (2023-09-18T23:06:32Z) - Communication Load Balancing via Efficient Inverse Reinforcement
Learning [13.052338083552863]
本研究では、逆強化学習(IRL)アプローチによる通信負荷分散問題に取り組む。
我々は,一連の実演から報酬関数を推定し,推論された報酬関数を用いて強化学習負荷バランスポリシーを学習する。
古典的なRLベースのソリューションと比較して、提案されたソリューションはより汎用的で現実のシナリオに適している。
論文 参考訳(メタデータ) (2023-03-22T22:23:23Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Phased Progressive Learning with Coupling-Regulation-Imbalance Loss for
Imbalanced Classification [11.673344551762822]
ディープニューラルネットワークは、一般に、異なるクラス間の量不均衡と分類困難の不均衡に苦しむデータセットで性能が良くない。
表象学習から上位クラス化学習への学習強調を円滑に伝達する段階的な進行学習スケジュールが提案された。
私たちのコードはまもなくオープンソースになります。
論文 参考訳(メタデータ) (2022-05-24T14:46:39Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Reinforced Workload Distribution Fairness [3.7384509727711923]
本稿では,アクティブロードバランサ状態監視とネットワーク観測の制限を伴わない分散強化学習機構を提案し,負荷バランサが達成したワークロード分布の公平性を向上する。
予備的な結果は、RLベースのロードバランシングアルゴリズムの有望性を示し、さらなる課題と今後の研究方向性を特定する。
論文 参考訳(メタデータ) (2021-10-29T07:51:26Z) - Balance-Oriented Focal Loss with Linear Scheduling for Anchor Free
Object Detection [1.69146632099647]
本稿では,背景と前景のバランスを考慮し,バランスドラーニングを誘発するバランス指向焦点損失を提案する。
前景階級のバランスの点で焦点損失を改善することにより、アンカーフリーリアルタイム検出器のためのMS-COCOにおけるAP利得+1.2を達成する。
論文 参考訳(メタデータ) (2020-12-26T15:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。