論文の概要: MoEC: Mixture of Expert Clusters
- arxiv url: http://arxiv.org/abs/2207.09094v1
- Date: Tue, 19 Jul 2022 06:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:08:05.281646
- Title: MoEC: Mixture of Expert Clusters
- Title(参考訳): MoEC: エキスパートクラスタの混在
- Authors: Yuan Xie, Shaohan Huang, Tianyu Chen, Furu Wei
- Abstract要約: Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
- 参考スコア(独自算出の注目度): 93.63738535295866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparsely Mixture of Experts (MoE) has received great interest due to its
promising scaling capability with affordable computational overhead. MoE
converts dense layers into sparse experts, and utilizes a gated routing network
to make experts conditionally activated. However, as the number of experts
grows, MoE with outrageous parameters suffers from overfitting and sparse data
allocation. Such problems are especially severe on tasks with limited data,
thus hindering the progress for MoE models to improve performance by scaling
up. In this work, we propose Mixture of Expert Clusters - a general approach to
enable expert layers to learn more diverse and appropriate knowledge by
imposing variance-based constraints on the routing stage. We further propose a
cluster-level expert dropout strategy specifically designed for the expert
cluster structure. Our experiments reveal that MoEC could improve performance
on machine translation and natural language understanding tasks, and raise the
performance upper bound for scaling up experts under limited data. We also
verify that MoEC plays a positive role in mitigating overfitting and sparse
data allocation.
- Abstract(参考訳): Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増えるにつれて、不条理なパラメータを持つmoeは過剰フィッティングとスパースなデータ割り当てに苦しむ。
このような問題は、限られたデータを持つタスクでは特に深刻であり、スケールアップによるパフォーマンス向上のためのMoEモデルの進歩を妨げる。
本稿では,ルーティングステージに分散ベースの制約を課すことで,エキスパート層がより多様で適切な知識を身につけるための一般的なアプローチである,エキスパートクラスタの混合を提案する。
我々はさらに,エキスパートクラスタ構造専用に設計されたクラスタレベルのエキスパートドロップアウト戦略を提案する。
実験の結果,MoECは機械翻訳や自然言語理解タスクの性能を向上し,限られたデータで専門家をスケールアップする上での上限を高くすることができることがわかった。
また,MoECがデータアロケーションの過度な調整やスパース化に肯定的な役割を担っていることも確認した。
関連論文リスト
- HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts
via Dynamic Transfer [27.0250806999889]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts [15.535613294871487]
我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。
MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
論文 参考訳(メタデータ) (2024-01-31T03:52:32Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Towards Understanding Mixture of Experts in Deep Learning [95.27215939891511]
ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T17:59:10Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。