論文の概要: Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models
- arxiv url: http://arxiv.org/abs/2501.11873v1
- Date: Tue, 21 Jan 2025 04:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:17.477503
- Title: Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models
- Title(参考訳): Demons in the Detail: Inmplementing Load Balancing Loss for Trainingated Mixture-of-Expert Models
- Authors: Zihan Qiu, Zeyu Huang, Bo Zheng, Kaiyue Wen, Zekun Wang, Rui Men, Ivan Titov, Dayiheng Liu, Jingren Zhou, Junyang Lin,
- Abstract要約: 本稿では、Mixture-of-Experts(MoEs)モデルをトレーニングする際に、$textbfL$oad-$textbfb$alancing $textbfL$oss(LBL)の実装を再検討する。
- 参考スコア(独自算出の注目度): 77.79855507792564
- License:
- Abstract: This paper revisits the implementation of $\textbf{L}$oad-$\textbf{b}$alancing $\textbf{L}$oss (LBL) when training Mixture-of-Experts (MoEs) models. Specifically, LBL for MoEs is defined as $N_E \sum_{i=1}^{N_E} f_i p_i$, where $N_E$ is the total number of experts, $f_i$ represents the frequency of expert $i$ being selected, and $p_i$ denotes the average gating score of the expert $i$. Existing MoE training frameworks usually employ the parallel training strategy so that $f_i$ and the LBL are calculated within a $\textbf{micro-batch}$ and then averaged across parallel groups. In essence, a micro-batch for training billion-scale LLMs normally contains very few sequences. So, the micro-batch LBL is almost at the sequence level, and the router is pushed to distribute the token evenly within each sequence. Under this strict constraint, even tokens from a domain-specific sequence ($\textit{e.g.}$, code) are uniformly routed to all experts, thereby inhibiting expert specialization. In this work, we propose calculating LBL using a $\textbf{global-batch}$ to loose this constraint. Because a global-batch contains much more diverse sequences than a micro-batch, which will encourage load balance at the corpus level. Specifically, we introduce an extra communication step to synchronize $f_i$ across micro-batches and then use it to calculate the LBL. Through experiments on training MoEs-based LLMs (up to $\textbf{42.8B}$ total parameters and $\textbf{400B}$ tokens), we surprisingly find that the global-batch LBL strategy yields excellent performance gains in both pre-training perplexity and downstream tasks. Our analysis reveals that the global-batch LBL also greatly improves the domain specialization of MoE experts.
- Abstract(参考訳): 本稿では,Mixture-of-Experts (MoEs)モデルのトレーニング時に,$\textbf{L}$oad-$\textbf{b}$alancing $\textbf{L}$oss (LBL)の実装を再検討する。
具体的には、MoEs の LBL は $N_E \sum_{i=1}^{N_E} f_i p_i$ と定義される。
既存のMoEトレーニングフレームワークは、通常、$f_i$とLBLが$\textbf{micro-batch}$で計算され、その後、並列グループで平均化されるように、並列トレーニング戦略を採用している。
本質的には、数十億のLLMをトレーニングするためのマイクロバッチは通常、ごく少数のシーケンスを含む。
したがって、マイクロバッチLBLはほぼシーケンスレベルであり、ルータが押されて各シーケンス内でトークンを均等に分配する。
この厳密な制約の下では、ドメイン固有のシーケンス(\textit{e g }$, code)からのトークンでさえ、すべての専門家に均一にルーティングされるため、専門家の専門化が阻害される。
本研究では,この制約を緩めるために$\textbf{global-batch}$を用いてLBLを計算することを提案する。
グローバルバッチはマイクロバッチよりもはるかに多様なシーケンスを含んでいるため、コーパスレベルでの負荷バランスが促進される。
具体的には、マイクロバッチ間で$f_i$を同期させ、それをLBLを計算するための余分な通信手順を導入する。
MoEsベースのLLM($\textbf{42.8B}$トータルパラメータと$\textbf{400B}$トークン)のトレーニング実験を通じて、グローバルバッチのLBL戦略は、事前学習された複雑なタスクと下流タスクの両方において優れたパフォーマンス向上をもたらすことがわかった。
分析の結果,グローバルバッチのLBLは,MoE専門家のドメインの専門化を大幅に改善することが明らかとなった。
関連論文リスト
- An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding [25.20222970947923]
本稿では,事前学習された大規模言語モデル(LLM)の文脈長を拡張する手法を提案する。
$textttCREAM$ 位置インデックスを操作することで位置エンコーディングを補間する。
実験によると、$textttCREAM$ は "Never Miss A Beat" 付き $texttLlama2-7B$ の Base 版と Chat 版の両方で LLM をターゲット長まで拡張することができた。
論文 参考訳(メタデータ) (2024-06-11T10:35:49Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Batch Model Consolidation: A Multi-Task Model Consolidation Framework [14.687385545898776]
連続学習(CL)では、以前に学習したタスクの大幅な性能劣化を伴わずに、連続的にタスクのストリームを学習するモデルが求められている。
我々は,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするために,バッチモデル統合(textbfBMC$)を提案する。
提案手法は次の最良CL手法を70%向上させ,71タスクの終了時に性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-05-25T21:33:56Z) - Optimal Algorithms for Latent Bandits with Cluster Structure [50.44722775727619]
本稿では,複数のユーザが存在するクラスタ構造を持つ潜伏包帯問題と関連するマルチアーム包帯問題とを考察する。
本稿では,潜伏クラスタ構造を利用して$widetildeO(sqrt(mathsfM+mathsfN)mathsfTの最小限の後悔を提供するLATTICEを提案する。
論文 参考訳(メタデータ) (2023-01-17T17:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。