論文の概要: Efficient Large Scale Language Modeling with Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2112.10684v1
- Date: Mon, 20 Dec 2021 17:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:31:01.546988
- Title: Efficient Large Scale Language Modeling with Mixtures of Experts
- Title(参考訳): エキスパートの混在による効率的な大規模言語モデリング
- Authors: Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott,
Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth
Pasunuru, Giri Anantharaman, Xian Li, Shuohui Chen, Halil Akin, Mandeep
Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O'Horo, Jeff Wang,
Luke Zettlemoyer, Mona Diab, Zornitsa Kozareva, Ves Stoyanov
- Abstract要約: エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
- 参考スコア(独自算出の注目度): 61.45159383372181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of Experts layers (MoEs) enable efficient scaling of language models
through conditional computation. This paper presents a detailed empirical study
of how autoregressive MoE language models scale in comparison with dense models
in a wide range of settings: in- and out-of-domain language modeling, zero- and
few-shot priming, and full fine-tuning. With the exception of fine-tuning, we
find MoEs to be substantially more compute efficient. At more modest training
budgets, MoEs can match the performance of dense models using $\sim$4 times
less compute. This gap narrows at scale, but our largest MoE model (1.1T
parameters) consistently outperforms a compute-equivalent dense model (6.7B
parameters). Overall, this performance gap varies greatly across tasks and
domains, suggesting that MoE and dense models generalize differently in ways
that are worthy of future study. We make our code and models publicly available
for research use.
- Abstract(参考訳): エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では,自己回帰型moe言語モデルが,ドメイン内および領域外言語モデリング,ゼロおよびマイナショットプライミング,完全な微調整など,幅広い設定における密集したモデルと比較してどのようにスケールするかに関する詳細な実証研究を行う。
微調整を除けば、moesの計算効率は大幅に向上しています。
より控えめなトレーニング予算では、MoEsは$\sim$4の計算量で高密度モデルのパフォーマンスにマッチする。
このギャップはスケールで狭まるが、我々の最大のMoEモデル(1.1Tパラメータ)は、計算等価密度モデル(6.7Bパラメータ)よりも一貫して優れている。
全体として、このパフォーマンスギャップはタスクやドメインによって大きく異なり、MoEと高密度モデルが将来の研究に値する方法で異なる一般化をすることを示唆している。
コードとモデルを研究用に公開しています。
関連論文リスト
- Fast Inference of Mixture-of-Experts Language Models with Offloading [0.7998559449733824]
本研究では,アクセルメモリが限られているコンシューマハードウェア上で,大規模なMoE言語モデルを実行する際の問題点について検討する。
この戦略を用いることで、デスクトップハードウェアとフリーティアのGoogle Colabインスタンス上で、Mixtral-8x7Bを混合量子化して実行できます。
論文 参考訳(メタデータ) (2023-12-28T18:58:13Z) - Memory Augmented Language Models through Mixture of Word Experts [5.0215187938544315]
学習能力とFLOPをMixture-of-Experts(MoE)スタイルのモデルで積極的に分離し、知識豊富な語彙ベースのルーティング機能とエキスパートを目指しています。
我々は、様々なNLPタスクにおいて、同様のFLOP数を持つモデルのT5ファミリよりも、MoWEの方がはるかに優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2023-11-15T18:19:56Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。