論文の概要: Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models
- arxiv url: http://arxiv.org/abs/2501.11873v2
- Date: Tue, 04 Feb 2025 02:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:55:36.392500
- Title: Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models
- Title(参考訳): Demons in the Detail: Inmplementing Load Balancing Loss for Trainingated Mixture-of-Expert Models
- Authors: Zihan Qiu, Zeyu Huang, Bo Zheng, Kaiyue Wen, Zekun Wang, Rui Men, Ivan Titov, Dayiheng Liu, Jingren Zhou, Junyang Lin,
- Abstract要約: 本稿では、Mixture-of-Experts(MoEs)モデルをトレーニングする際に、$textbfL$oad-$textbfb$alancing $textbfL$oss(LBL)の実装を再検討する。
- 参考スコア(独自算出の注目度): 77.79855507792564
- License:
- Abstract: This paper revisits the implementation of $\textbf{L}$oad-$\textbf{b}$alancing $\textbf{L}$oss (LBL) when training Mixture-of-Experts (MoEs) models. Specifically, LBL for MoEs is defined as $N_E \sum_{i=1}^{N_E} f_i p_i$, where $N_E$ is the total number of experts, $f_i$ represents the frequency of expert $i$ being selected, and $p_i$ denotes the average gating score of the expert $i$. Existing MoE training frameworks usually employ the parallel training strategy so that $f_i$ and the LBL are calculated within a $\textbf{micro-batch}$ and then averaged across parallel groups. In essence, a micro-batch for training billion-scale LLMs normally contains very few sequences. So, the micro-batch LBL is almost at the sequence level, and the router is pushed to distribute the token evenly within each sequence. Under this strict constraint, even tokens from a domain-specific sequence ($\textit{e.g.}$, code) are uniformly routed to all experts, thereby inhibiting expert specialization. In this work, we propose calculating LBL using a $\textbf{global-batch}$ to loose this constraint. Because a global-batch contains much more diverse sequences than a micro-batch, which will encourage load balance at the corpus level. Specifically, we introduce an extra communication step to synchronize $f_i$ across micro-batches and then use it to calculate the LBL. Through experiments on training MoEs-based LLMs (up to $\textbf{42.8B}$ total parameters and $\textbf{400B}$ tokens), we surprisingly find that the global-batch LBL strategy yields excellent performance gains in both pre-training perplexity and downstream tasks. Our analysis reveals that the global-batch LBL also greatly improves the domain specialization of MoE experts.
- Abstract(参考訳): 本稿では,Mixture-of-Experts (MoEs)モデルのトレーニング時に,$\textbf{L}$oad-$\textbf{b}$alancing $\textbf{L}$oss (LBL)の実装を再検討する。
具体的には、MoEs の LBL は $N_E \sum_{i=1}^{N_E} f_i p_i$ と定義される。
既存のMoEトレーニングフレームワークは、通常、$f_i$とLBLが$\textbf{micro-batch}$で計算され、その後、並列グループで平均化されるように、並列トレーニング戦略を採用している。
本質的には、数十億のLLMをトレーニングするためのマイクロバッチは通常、ごく少数のシーケンスを含む。
したがって、マイクロバッチLBLはほぼシーケンスレベルであり、ルータが押されて各シーケンス内でトークンを均等に分配する。
この厳密な制約の下では、ドメイン固有のシーケンス(\textit{e g }$, code)からのトークンでさえ、すべての専門家に均一にルーティングされるため、専門家の専門化が阻害される。
本研究では,この制約を緩めるために$\textbf{global-batch}$を用いてLBLを計算することを提案する。
グローバルバッチはマイクロバッチよりもはるかに多様なシーケンスを含んでいるため、コーパスレベルでの負荷バランスが促進される。
具体的には、マイクロバッチ間で$f_i$を同期させ、それをLBLを計算するための余分な通信手順を導入する。
MoEsベースのLLM($\textbf{42.8B}$トータルパラメータと$\textbf{400B}$トークン)のトレーニング実験を通じて、グローバルバッチのLBL戦略は、事前学習された複雑なタスクと下流タスクの両方において優れたパフォーマンス向上をもたらすことがわかった。
分析の結果,グローバルバッチのLBLは,MoE専門家のドメインの専門化を大幅に改善することが明らかとなった。
関連論文リスト
- Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - Control LLM: Controlled Evolution for Intelligence Retention in LLM [4.67235851066221]
並列事前学習および拡張トランスブロックを利用した新しいアプローチである textbfControl LLM を提案する。
CPT(Continuous Pre-Training)とCSFT(Continuous Supervised Fine-Tuning)における制御LDMの有効性を示す実験
既存の手法を超越し、同じベースモデルからチューニングされたオープンソースモデルの中でSOTAを実現する。
論文 参考訳(メタデータ) (2025-01-19T08:06:06Z) - Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [4.899818550820576]
マルチエージェント強化学習のための新しいアルゴリズムを提案する。
この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-12-01T03:45:17Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [43.32632163091792]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Batch Model Consolidation: A Multi-Task Model Consolidation Framework [14.687385545898776]
連続学習(CL)では、以前に学習したタスクの大幅な性能劣化を伴わずに、連続的にタスクのストリームを学習するモデルが求められている。
我々は,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするために,バッチモデル統合(textbfBMC$)を提案する。
提案手法は次の最良CL手法を70%向上させ,71タスクの終了時に性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-05-25T21:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。