Fugu-MT 論文翻訳(概要): Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

論文の概要: Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

arxiv url: http://arxiv.org/abs/2501.11873v2
Date: Tue, 04 Feb 2025 02:07:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.008392
Title: Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models
Title（参考訳）: Demons in the Detail: Inmplementing Load Balancing Loss for Trainingated Mixture-of-Expert Models
Authors: Zihan Qiu, Zeyu Huang, Bo Zheng, Kaiyue Wen, Zekun Wang, Rui Men, Ivan Titov, Dayiheng Liu, Jingren Zhou, Junyang Lin,
Abstract要約: 本稿では、Mixture-of-Experts(MoEs)モデルをトレーニングする際に、$textbfL$oad-$textbfb$alancing $textbfL$oss(LBL)の実装を再検討する。
参考スコア（独自算出の注目度）: 77.79855507792564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper revisits the implementation of $\textbf{L}$oad-$\textbf{b}$alancing $\textbf{L}$oss (LBL) when training Mixture-of-Experts (MoEs) models. Specifically, LBL for MoEs is defined as $N_E \sum_{i=1}^{N_E} f_i p_i$, where $N_E$ is the total number of experts, $f_i$ represents the frequency of expert $i$ being selected, and $p_i$ denotes the average gating score of the expert $i$. Existing MoE training frameworks usually employ the parallel training strategy so that $f_i$ and the LBL are calculated within a $\textbf{micro-batch}$ and then averaged across parallel groups. In essence, a micro-batch for training billion-scale LLMs normally contains very few sequences. So, the micro-batch LBL is almost at the sequence level, and the router is pushed to distribute the token evenly within each sequence. Under this strict constraint, even tokens from a domain-specific sequence ($\textit{e.g.}$, code) are uniformly routed to all experts, thereby inhibiting expert specialization. In this work, we propose calculating LBL using a $\textbf{global-batch}$ to loose this constraint. Because a global-batch contains much more diverse sequences than a micro-batch, which will encourage load balance at the corpus level. Specifically, we introduce an extra communication step to synchronize $f_i$ across micro-batches and then use it to calculate the LBL. Through experiments on training MoEs-based LLMs (up to $\textbf{42.8B}$ total parameters and $\textbf{400B}$ tokens), we surprisingly find that the global-batch LBL strategy yields excellent performance gains in both pre-training perplexity and downstream tasks. Our analysis reveals that the global-batch LBL also greatly improves the domain specialization of MoE experts.
Abstract（参考訳）: 本稿では,Mixture-of-Experts (MoEs)モデルのトレーニング時に,$\textbf{L}$oad-$\textbf{b}$alancing $\textbf{L}$oss (LBL)の実装を再検討する。具体的には、MoEs の LBL は $N_E \sum_{i=1}^{N_E} f_i p_i$ と定義される。既存のMoEトレーニングフレームワークは、通常、$f_i$とLBLが$\textbf{micro-batch}$で計算され、その後、並列グループで平均化されるように、並列トレーニング戦略を採用している。本質的には、数十億のLLMをトレーニングするためのマイクロバッチは通常、ごく少数のシーケンスを含む。したがって、マイクロバッチLBLはほぼシーケンスレベルであり、ルータが押されて各シーケンス内でトークンを均等に分配する。この厳密な制約の下では、ドメイン固有のシーケンス(\textit{e g }$, code)からのトークンでさえ、すべての専門家に均一にルーティングされるため、専門家の専門化が阻害される。本研究では,この制約を緩めるために$\textbf{global-batch}$を用いてLBLを計算することを提案する。グローバルバッチはマイクロバッチよりもはるかに多様なシーケンスを含んでいるため、コーパスレベルでの負荷バランスが促進される。具体的には、マイクロバッチ間で$f_i$を同期させ、それをLBLを計算するための余分な通信手順を導入する。 MoEsベースのLLM($\textbf{42.8B}$トータルパラメータと$\textbf{400B}$トークン)のトレーニング実験を通じて、グローバルバッチのLBL戦略は、事前学習された複雑なタスクと下流タスクの両方において優れたパフォーマンス向上をもたらすことがわかった。分析の結果,グローバルバッチのLBLは,MoE専門家のドメインの専門化を大幅に改善することが明らかとなった。

関連論文リスト

Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\ exttt{D}}$ual-$\mathbf{\ exttt{H}}$ead $\mathbf{\ exttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文参考訳（メタデータ） (2025-05-12T15:39:51Z)
Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
Control LLM: Controlled Evolution for Intelligence Retention in LLM [4.67235851066221]
制御LSMは、新しい知識をシームレスに統合しながら、既存のタスクのパフォーマンスを維持する。既存の手法を超越し、同じベースモデルからチューニングされたオープンソースモデルの中でSOTAを達成する。このアプローチは、LinkedInのGenAIベースの求人サービスとAdsユニット製品にうまくデプロイされている。
論文参考訳（メタデータ） (2025-01-19T08:06:06Z)
Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [4.899818550820576]
マルチエージェント強化学習のための新しいアルゴリズムを提案する。この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2024-12-01T03:45:17Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文参考訳（メタデータ） (2024-05-09T17:40:09Z)
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。 BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文参考訳（メタデータ） (2024-03-12T16:54:58Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
Provably Efficient High-Dimensional Bandit Learning with Batched Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文参考訳（メタデータ） (2023-11-22T06:06:54Z)
Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [43.32632163091792]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。 MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文参考訳（メタデータ） (2023-10-04T14:11:12Z)
Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文参考訳（メタデータ） (2023-07-11T22:58:53Z)
Batch Model Consolidation: A Multi-Task Model Consolidation Framework [14.687385545898776]
連続学習(CL)では、以前に学習したタスクの大幅な性能劣化を伴わずに、連続的にタスクのストリームを学習するモデルが求められている。我々は,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするために,バッチモデル統合(textbfBMC$)を提案する。提案手法は次の最良CL手法を70%向上させ,71タスクの終了時に性能を維持できる唯一の手法である。
論文参考訳（メタデータ） (2023-05-25T21:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。