論文の概要: Efficient Large Scale Language Modeling with Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2112.10684v1
- Date: Mon, 20 Dec 2021 17:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:31:01.546988
- Title: Efficient Large Scale Language Modeling with Mixtures of Experts
- Title(参考訳): エキスパートの混在による効率的な大規模言語モデリング
- Authors: Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott,
Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth
Pasunuru, Giri Anantharaman, Xian Li, Shuohui Chen, Halil Akin, Mandeep
Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O'Horo, Jeff Wang,
Luke Zettlemoyer, Mona Diab, Zornitsa Kozareva, Ves Stoyanov
- Abstract要約: エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
- 参考スコア(独自算出の注目度): 61.45159383372181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of Experts layers (MoEs) enable efficient scaling of language models
through conditional computation. This paper presents a detailed empirical study
of how autoregressive MoE language models scale in comparison with dense models
in a wide range of settings: in- and out-of-domain language modeling, zero- and
few-shot priming, and full fine-tuning. With the exception of fine-tuning, we
find MoEs to be substantially more compute efficient. At more modest training
budgets, MoEs can match the performance of dense models using $\sim$4 times
less compute. This gap narrows at scale, but our largest MoE model (1.1T
parameters) consistently outperforms a compute-equivalent dense model (6.7B
parameters). Overall, this performance gap varies greatly across tasks and
domains, suggesting that MoE and dense models generalize differently in ways
that are worthy of future study. We make our code and models publicly available
for research use.
- Abstract(参考訳): エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では,自己回帰型moe言語モデルが,ドメイン内および領域外言語モデリング,ゼロおよびマイナショットプライミング,完全な微調整など,幅広い設定における密集したモデルと比較してどのようにスケールするかに関する詳細な実証研究を行う。
微調整を除けば、moesの計算効率は大幅に向上しています。
より控えめなトレーニング予算では、MoEsは$\sim$4の計算量で高密度モデルのパフォーマンスにマッチする。
このギャップはスケールで狭まるが、我々の最大のMoEモデル(1.1Tパラメータ)は、計算等価密度モデル(6.7Bパラメータ)よりも一貫して優れている。
全体として、このパフォーマンスギャップはタスクやドメインによって大きく異なり、MoEと高密度モデルが将来の研究に値する方法で異なる一般化をすることを示唆している。
コードとモデルを研究用に公開しています。
関連論文リスト
- Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark [46.72960840801211]
Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する
MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。
本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Memory Augmented Language Models through Mixture of Word Experts [5.0215187938544315]
学習能力とFLOPをMixture-of-Experts(MoE)スタイルのモデルで積極的に分離し、知識豊富な語彙ベースのルーティング機能とエキスパートを目指しています。
我々は、様々なNLPタスクにおいて、同様のFLOP数を持つモデルのT5ファミリよりも、MoWEの方がはるかに優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2023-11-15T18:19:56Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。