論文の概要: Mixture-of-Experts with Expert Choice Routing
- arxiv url: http://arxiv.org/abs/2202.09368v1
- Date: Fri, 18 Feb 2022 17:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:52:06.795943
- Title: Mixture-of-Experts with Expert Choice Routing
- Title(参考訳): エキスパート選択ルーティングによるエキスパートの混合
- Authors: Yanqi Zhou and Tao Lei and Hanxiao Liu and Nan Du and Yanping Huang
and Vincent Zhao and Andrew Dai and Zhifeng Chen and Quoc Le and James Laudon
- Abstract要約: 以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。
本稿では,専門家選択手法を用いた異種混合実験を提案する。
本手法は, トレーニング収束時間を2倍以上改善する。
- 参考スコア(独自算出の注目度): 44.777850078713634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparsely-activated Mixture-of-experts (MoE) models allow the number of
parameters to greatly increase while keeping the amount of computation for a
given token or a given sample unchanged. However, a poor expert routing
strategy (e.g. one resulting in load imbalance) can cause certain experts to be
under-trained, leading to an expert being under or over-specialized. Prior work
allocates a fixed number of experts to each token using a top-k function
regardless of the relative importance of different tokens. To address this, we
propose a heterogeneous mixture-of-experts employing an expert choice method.
Instead of letting tokens select the top-k experts, we have experts selecting
the top-k tokens. As a result, each token can be routed to a variable number of
experts and each expert can have a fixed bucket size. We systematically study
pre-training speedups using the same computational resources of the Switch
Transformer top-1 and GShard top-2 gating of prior work and find that our
method improves training convergence time by more than 2x. For the same
computational cost, our method demonstrates higher performance in fine-tuning
11 selected tasks in the GLUE and SuperGLUE benchmarks. For a smaller
activation cost, our method outperforms the T5 dense model in 7 out of the 11
tasks.
- Abstract(参考訳): わずかに活性化されたMixture-of-experts(MoE)モデルは、所定のトークンやサンプルの計算量を変更せずにパラメータの数を大幅に増加させることができる。
しかし、専門家のルーティング戦略(例えば、負荷の不均衡をもたらすもの)は、特定の専門家を過度に訓練させ、専門家が過度に専門化される。
先行作業は、異なるトークンの相対的重要性に関わらず、トップk関数を使用して、各トークンに一定の数の専門家を割り当てる。
そこで本研究では,エキスパート選択手法を用いたヘテロジニアス混合物を提案する。
トークンがトップkの専門家を選択する代わりに、トップkトークンを選択する専門家がいます。
その結果、各トークンはさまざまな専門家にルーティングされ、各専門家は固定されたバケットサイズを持つことができる。
そこで本研究では,スイッチ変圧器top-1とgshard top-2と同じ計算資源を用いて事前学習速度を体系的に検討し,学習収束時間を2倍以上改善できることを見いだした。
同じ計算コストで,提案手法はGLUEおよびSuperGLUEベンチマークで選択したタスクを微調整することで高い性能を示す。
アクティベーションコストを小さくするために、本手法は11タスクのうち7タスクでT5高密度モデルより優れている。
関連論文リスト
- Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Mixture of Diverse Size Experts [13.29015039603752]
Sparsely-Activated Mixture-of-Experts (MoE) は、計算コストを犠牲にすることなく大規模言語モデル (LLM) のスケールアップで人気を博している。
異なる大きさのエキスパートを持つよう設計されたレイヤを持つMoEアーキテクチャであるMoDSE(Mixture of Diverse Size Experts)を提案する。
論文 参考訳(メタデータ) (2024-09-18T08:23:27Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Entry Dependent Expert Selection in Distributed Gaussian Processes Using
Multilabel Classification [12.622412402489951]
アンサンブルのテクニックは、データ分割を訓練したガウスの専門家による局所的な予測を組み合わせる。
本稿では,エントリデータポイントの特性に基づくフレキシブルな専門家選択手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T23:23:26Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。