論文の概要: Exploring Sparse Expert Models and Beyond
- arxiv url: http://arxiv.org/abs/2105.15082v1
- Date: Mon, 31 May 2021 16:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 20:08:15.961677
- Title: Exploring Sparse Expert Models and Beyond
- Title(参考訳): スパースなエキスパートモデルとそれ以上を探求する
- Authors: An Yang, Junyang Lin, Rui Men, Chang Zhou, Le Jiang, Xianyan Jia, Ang
Wang, Jie Zhang, Jiamang Wang, Yong Li, Di Zhang, Wei Lin, Lin Qu, Jingren
Zhou, Hongxia Yang
- Abstract要約: Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 51.90860155810848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models can achieve promising results with outrageous
large amount of parameters but constant computation cost, and thus it has
become a trend in model scaling. Still it is a mystery how MoE layers bring
quality gains by leveraging the parameters with sparse activation. In this
work, we investigate several key factors in sparse expert models. We observe
that load imbalance may not be a significant problem affecting model quality,
contrary to the perspectives of recent studies, while the number of sparsely
activated experts $k$ and expert capacity $C$ in top-$k$ routing can
significantly make a difference in this context. Furthermore, we take a step
forward to propose a simple method called expert prototyping that splits
experts into different prototypes and applies $k$ top-$1$ routing. This
strategy improves the model quality but maintains constant computational costs,
and our further exploration on extremely large-scale models reflects that it is
more effective in training larger models. We push the model scale to over $1$
trillion parameters and implement it on solely $480$ NVIDIA V100-32GB GPUs, in
comparison with the recent SOTA Switch Transformer on $2048$ TPUs. The proposed
giant model achieves substantial speedup in convergence over the same-size
baseline.
- Abstract(参考訳): Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つ有望な結果が得られるが、計算コストは一定であり、モデルスケーリングのトレンドとなっている。
それでも、MoE層がパラメータをスパースアクティベーションで活用することで、どのように品質向上をもたらすのかは謎である。
本研究では,スパースエキスパートモデルにおけるいくつかの要因について検討する。
負荷の不均衡は、最近の研究の視点とは対照的に、モデル品質に重大な問題ではない可能性があるが、sparsely activated experts $k$とexpert capacity $c$トップ$k$ routingは、この文脈で大きな違いをもたらす可能性がある。
さらに私たちは、エキスパートプロトタイピングと呼ばれる、専門家を異なるプロトタイプに分割し、トップクラスのルーティングに$k$を適用するシンプルな方法を提案します。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
私たちはモデルスケールを1兆ドル以上のパラメータに押し上げ、NVIDIA V100-32GBのGPUのみに実装します。
提案する巨大モデルは,同規模のベースライン上での収束の大幅な高速化を実現する。
関連論文リスト
- A Systematic Approach to Robustness Modelling for Deep Convolutional
Neural Networks [0.294944680995069]
最近の研究は、より大きなモデルが制御された列車やテストセット外のデータに一般化できるかどうかという疑問を提起している。
本稿では,障害発生確率を時間関数としてモデル化する手法を提案する。
コスト、ロバスト性、レイテンシ、信頼性のトレードオフについて検討し、より大きなモデルが敵のロバスト性に大きく寄与しないことを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Blending Is All You Need: Cheaper, Better Alternative to
Trillion-Parameters LLM [9.340519360486924]
より小さなモデルの組み合わせは、特異な大きなモデルと比較して、同等または拡張されたパフォーマンスを協調的に達成できるだろうか?
我々は,複数のチャットAIを統合する上で,単純かつ効果的な手法である「ブレンディング」というアプローチを導入する。
例えば、中程度のサイズの3つのモデル(6B/13Bパラメータ)を統合することで、ChatGPT (175B+パラメータ)のようなかなり大きなモデルのパフォーマンス指標に匹敵したり、超えたりすることができる。
論文 参考訳(メタデータ) (2024-01-04T07:45:49Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Federated Topic Model and Model Pruning Based on Variational Autoencoder [14.737942599204064]
フェデレートされたトピックモデリングにより、複数のパーティがデータのプライバシを保護しながらモデルを共同でトレーニングできる。
本稿では,各ノードのプライバシを確保しつつ,フェデレートされたトピックモデルを確立する手法を提案し,ニューラルネットワークモデルプルーニングを用いてモデルを高速化する。
実験結果から,フェデレートされたトピックモデルプルーニングは,モデルの性能を確保しつつ,モデルのトレーニング速度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-11-01T06:00:14Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - PFGM++: Unlocking the Potential of Physics-Inspired Generative Models [14.708385906024546]
PFGM++と呼ばれる物理に着想を得た新しい生成モデルを導入する。
これらのモデルは、$N+D$次元空間に経路を埋め込むことにより、$N$次元データの生成軌道を実現する。
有限$D$のモデルは、従来の最先端拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T18:58:02Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。