論文の概要: Towards Understanding Mixture of Experts in Deep Learning
- arxiv url: http://arxiv.org/abs/2208.02813v1
- Date: Thu, 4 Aug 2022 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:06:07.563876
- Title: Towards Understanding Mixture of Experts in Deep Learning
- Title(参考訳): 深層学習における専門家の混合理解に向けて
- Authors: Zixiang Chen and Yihe Deng and Yue Wu and Quanquan Gu and Yuanzhi Li
- Abstract要約: ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
- 参考スコア(独自算出の注目度): 95.27215939891511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) layer, a sparsely-activated model controlled by
a router, has achieved great success in deep learning. However, the
understanding of such architecture remains elusive. In this paper, we formally
study how the MoE layer improves the performance of neural network learning and
why the mixture model will not collapse into a single model. Our empirical
results suggest that the cluster structure of the underlying problem and the
non-linearity of the expert are pivotal to the success of MoE. To further
understand this, we consider a challenging classification problem with
intrinsic cluster structures, which is hard to learn using a single expert. Yet
with the MoE layer, by choosing the experts as two-layer nonlinear
convolutional neural networks (CNNs), we show that the problem can be learned
successfully. Furthermore, our theory shows that the router can learn the
cluster-center features, which helps divide the input complex problem into
simpler linear classification sub-problems that individual experts can conquer.
To our knowledge, this is the first result towards formally understanding the
mechanism of the MoE layer for deep learning.
- Abstract(参考訳): ルータによって制御される疎活性化モデルであるMixture-of-Experts (MoE)層は,ディープラーニングにおいて大きな成功を収めている。
しかし、そのような建築の理解はいまだ解明されていない。
本稿では,moe層がニューラルネットワークの学習性能をどのように向上させるか,および混合モデルが単一モデルに崩壊しない理由を形式的に検討する。
実験の結果,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
これをさらに理解するため,本質的なクラスタ構造では,ひとつの専門家で学ぶのが難しい,難しい分類問題を考える。
しかし,moe層では,2層非線形畳み込みニューラルネットワーク(cnns)として専門家を選定することで,この問題をうまく学習できることを示す。
さらに,本理論は,ルータがクラスタ中心の特徴を学習できることを示し,入力複雑な問題を,個々の専門家が克服できるより単純な線形分類部分問題に分割することを支援する。
私たちの知る限り、これはディープラーニングのためのMoE層のメカニズムを正式に理解する最初の結果です。
関連論文リスト
- Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Stacked unsupervised learning with a network architecture found by
supervised meta-learning [4.209801809583906]
階層化された教師なし学習は、バックプロパゲーションよりも生物学的に妥当に思える。
しかし、SULは実践的な応用においてバックプロパゲーションには程遠い。
MNIST桁の完全教師なしクラスタリングが可能なSULアルゴリズムを示す。
論文 参考訳(メタデータ) (2022-06-06T16:17:20Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Mixture of ELM based experts with trainable gating network [2.320417845168326]
本研究では,専門家の混在に基づくアンサンブル学習手法を提案する。
MEの構造は、ベースエキスパートとゲーティングネットワークとして多層パーセプトロン(MLP)から構成される。
提案手法では,訓練可能なゲーティングネットワークを用いて専門家の出力を集約する。
論文 参考訳(メタデータ) (2021-05-25T07:13:35Z) - Pseudo-supervised Deep Subspace Clustering [27.139553299302754]
オートエンコーダ (AE) ベースのディープサブスペースクラスタリング (DSC) 手法は優れた性能を発揮している。
しかし、AEの自己再建損失は、豊富な有用な関係情報を無視する。
また、セマンティクスラベルを供給せずにハイレベルな類似性を学ぶことも困難である。
論文 参考訳(メタデータ) (2021-04-08T06:25:47Z) - Gradient-based Competitive Learning: Theory [1.6752712949948443]
本稿では,勾配に基づく学習と競争的な学習を組み合わせることで,この分野の新たな視点を紹介する。
この理論は、ニューラルネットワークが入力行列の変換を直接研究することで、トポロジカル構造を学習できるという直感に基づいている。
提案手法は、トポロジカル学習タスクの広範な選択に一般化できるため、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2020-09-06T19:00:51Z) - Understanding Deep Architectures with Reasoning Layer [60.90906477693774]
本研究では,アルゴリズムの収束,安定性,感度といった特性が,エンドツーエンドモデルの近似と一般化能力と密接に関連していることを示す。
私たちの理論は、深いアーキテクチャを推論層で設計するための有用なガイドラインを提供することができます。
論文 参考訳(メタデータ) (2020-06-24T00:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。