論文の概要: Scalable and Efficient MoE Training for Multitask Multilingual Models
- arxiv url: http://arxiv.org/abs/2109.10465v1
- Date: Wed, 22 Sep 2021 00:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:01:00.523108
- Title: Scalable and Efficient MoE Training for Multitask Multilingual Models
- Title(参考訳): マルチタスク多言語モデルのためのスケーラブルで効率的なMoEトレーニング
- Authors: Young Jin Kim, Ammar Ahmad Awan, Alexandre Muzio, Andres Felipe Cruz
Salinas, Liyang Lu, Amr Hendy, Samyam Rajbhandari, Yuxiong He and Hany Hassan
Awadalla
- Abstract要約: 我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 55.987536562357086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture of Experts (MoE) models are an emerging class of sparsely
activated deep learning models that have sublinear compute costs with respect
to their parameters. In contrast with dense models, the sparse architecture of
MoE offers opportunities for drastically growing model size with significant
accuracy gain while consuming much lower compute budget. However, supporting
large scale MoE training also has its own set of system and modeling
challenges. To overcome the challenges and embrace the opportunities of MoE, we
first develop a system capable of scaling MoE models efficiently to trillions
of parameters. It combines multi-dimensional parallelism and heterogeneous
memory technologies harmoniously with MoE to empower 8x larger models on the
same hardware compared with existing work. Besides boosting system efficiency,
we also present new training methods to improve MoE sample efficiency and
leverage expert pruning strategy to improve inference time efficiency. By
combining the efficient system and training methods, we are able to
significantly scale up large multitask multilingual models for language
generation which results in a great improvement in model accuracy. A model
trained with 10 billion parameters on 50 languages can achieve state-of-the-art
performance in Machine Translation (MT) and multilingual natural language
generation tasks. The system support of efficient MoE training has been
implemented and open-sourced with the DeepSpeed library.
- Abstract(参考訳): Mixture of Experts (MoE)モデルは、パラメータに関してサブ線形計算コストを持つ疎活性化ディープラーニングモデルの新興クラスである。
密度の高いモデルとは対照的に、MoEのスパースアーキテクチャは、非常に低い計算予算を消費しながら、かなり精度の高いモデルサイズを増大させる機会を提供する。
しかし、大規模なMoEトレーニングをサポートするには、独自のシステムとモデリングの課題もある。
課題を克服し、MoEの機会を受け入れるために、まず、MoEモデルを数兆のパラメータに効率的にスケーリングできるシステムを開発する。
マルチ次元の並列性と、MoEと調和して異種メモリ技術を組み合わせることで、既存の作業に比べて8倍大きなモデルを同じハードウェア上で強化する。
システム効率の向上に加えて,moeサンプル効率の向上とエキスパートプルーニング戦略を活用した推論時間効率向上のための新たなトレーニング手法を提案する。
効率的なシステムと学習手法を組み合わせることで,言語生成のための大規模マルチタスク多言語モデルのスケールアップが可能となり,モデルの精度が大幅に向上した。
50言語で100億のパラメータでトレーニングされたモデルは、機械翻訳(mt)と多言語自然言語生成タスクで最先端のパフォーマンスを達成できます。
効率的なmoeトレーニングのシステムサポートが実装され、deepspeedライブラリでオープンソース化された。
関連論文リスト
- AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies [36.645912291368546]
AquilaMoEは最先端のバイリンガル8*16BMixture of Experts (MoE)言語モデルで、それぞれ16億のパラメータを持つ8人のエキスパートが参加する。
このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。
我々は16Bモデルと8*16B AquilaMoEモデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-08-13T02:07:00Z) - LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-08-08T07:37:26Z) - Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。
我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。
我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文 参考訳(メタデータ) (2024-05-23T04:12:49Z) - Do Generative Large Language Models need billions of parameters? [0.0]
この研究は、モデルの異なる部分がパラメータを共有することを可能にする新しい方法を探究する。
このアプローチは、複雑な言語構造を学習し表現する能力を犠牲にすることなく、モデルがコンパクトであることを保証する。
論文 参考訳(メタデータ) (2023-09-12T20:25:22Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。