論文の概要: Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
- arxiv url: http://arxiv.org/abs/2403.07816v1
- Date: Tue, 12 Mar 2024 16:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 20:31:04.302461
- Title: Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
- Title(参考訳): Branch-Train-MiX: エキスパートLSMを試験LSMに混合する
- Authors: Sainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma, Hu Xu, Xi Victoria
Lin, Baptiste Rozi\`ere, Jacob Kahn, Daniel Li, Wen-tau Yih, Jason Weston,
Xian Li
- Abstract要約: 大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
- 参考スコア(独自算出の注目度): 81.18305296110853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate efficient methods for training Large Language Models (LLMs) to
possess capabilities in multiple specialized domains, such as coding, math
reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts
from a seed model, which is branched to train experts in embarrassingly
parallel fashion with high throughput and reduced communication cost. After
individual experts are asynchronously trained, BTX brings together their
feedforward parameters as experts in Mixture-of-Expert (MoE) layers and
averages the remaining parameters, followed by an MoE-finetuning stage to learn
token-level routing. BTX generalizes two special cases, the Branch-Train-Merge
method, which does not have the MoE finetuning stage to learn routing, and
sparse upcycling, which omits the stage of training experts asynchronously.
Compared to alternative approaches, BTX achieves the best accuracy-efficiency
tradeoff.
- Abstract(参考訳): 符号化,数学推論,世界知識など,複数の専門分野の能力を有する大規模言語モデル(LLM)を学習するための効率的な手法について検討する。
提案手法はbtx(branch-train-mix)と呼ばれるシードモデルから始まり,高いスループットと通信コストの低減により,恥ずかしいほど並列的に専門家を訓練する。
個々の専門家が非同期でトレーニングされた後、BTXはMixture-of-Expert(MoE)層の専門家としてフィードフォワードパラメータをまとめ、残りのパラメータを平均化し、トークンレベルのルーティングを学ぶためのMoEファインタニングステージが続く。
btxは、ルーティングを学ぶためのmoe微調整段階を持たない分岐列車メルジ法と、非同期に訓練専門家のステージを省略するスパースアップサイクリング法という2つの特別なケースを一般化している。
BTXは代替手法と比較して、最良の精度と効率のトレードオフを実現する。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - LocMoE: A Low-overhead MoE for Large Language Model Training [13.648568871134755]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Revisiting Single-gated Mixtures of Experts [13.591354795556972]
より実践的なトレーニングを可能にする単純なシングルゲートMOEを再考することを提案する。
当社の仕事の鍵は、(i) アーリーエグジットとアンサンブルな正規化スキームの両方として機能するベースモデルブランチです。
提案モデルが他の複雑なMoEに匹敵する効率と精度のトレードオフを得ることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:07:59Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文 参考訳(メタデータ) (2022-08-05T17:46:38Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。