論文の概要: Improving Expert Specialization in Mixture of Experts
- arxiv url: http://arxiv.org/abs/2302.14703v1
- Date: Tue, 28 Feb 2023 16:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:40:32.333704
- Title: Improving Expert Specialization in Mixture of Experts
- Title(参考訳): 専門家の混合による専門化の改善
- Authors: Yamuna Krishnamurthy and Chris Watkins and Thomas Gaertner
- Abstract要約: エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of experts (MoE), introduced over 20 years ago, is the simplest gated
modular neural network architecture. There is renewed interest in MoE because
the conditional computation allows only parts of the network to be used during
each inference, as was recently demonstrated in large scale natural language
processing models. MoE is also of potential interest for continual learning, as
experts may be reused for new tasks, and new experts introduced. The gate in
the MoE architecture learns task decompositions and individual experts learn
simpler functions appropriate to the gate's decomposition. In this paper: (1)
we show that the original MoE architecture and its training method do not
guarantee intuitive task decompositions and good expert utilization, indeed
they can fail spectacularly even for simple data such as MNIST and
FashionMNIST; (2) we introduce a novel gating architecture, similar to
attention, that improves performance and results in a lower entropy task
decomposition; and (3) we introduce a novel data-driven regularization that
improves expert specialization. We empirically validate our methods on MNIST,
FashionMNIST and CIFAR-100 datasets.
- Abstract(参考訳): 20年以上前に導入されたMixture of Expert(MoE)は、最もシンプルなゲート付きモジュラーニューラルネットワークアーキテクチャである。
最近の大規模自然言語処理モデルで実証されたように、条件付き計算によって各推論中にネットワークの一部のみを使用できるため、moeに対する新たな関心が生まれている。
MoEはまた、専門家が新しいタスクのために再利用され、新しい専門家が導入されたため、継続的な学習に対する潜在的な関心を持っている。
MoEアーキテクチャのゲートはタスクの分解を学習し、個々の専門家はゲートの分解に適した単純な機能を学ぶ。
本稿では,(1)moeアーキテクチャとそのトレーニング手法が直感的なタスク分解や優れたエキスパート利用を保証していないこと,(2)mnistやfashionmnistといった単純なデータであっても著しく失敗する可能性があること,(2)パフォーマンスを向上し,エントロピーなタスク分解を低下させる新たなゲーティングアーキテクチャ,(3)専門家の専門化を改善する新しいデータ駆動正規化を導入すること,などについて述べる。
我々は,MNIST,FashionMNIST,CIFAR-100データセットの手法を実証的に検証した。
関連論文リスト
- MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts [15.535613294871487]
我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。
MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
論文 参考訳(メタデータ) (2024-01-31T03:52:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。