論文の概要: MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts
- arxiv url: http://arxiv.org/abs/2402.00893v1
- Date: Wed, 31 Jan 2024 03:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:30:19.618428
- Title: MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts
- Title(参考訳): mode: 専門家間の相互蒸留を伴う混合専門家モデル
- Authors: Zhitian Xie, Yinger Zhang, Chenyi Zhuang, Qitao Shi, Zhining Liu,
Jinjie Gu, Guannan Zhang
- Abstract要約: 我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。
MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
- 参考スコア(独自算出の注目度): 15.535613294871487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The application of mixture-of-experts (MoE) is gaining popularity due to its
ability to improve model's performance. In an MoE structure, the gate layer
plays a significant role in distinguishing and routing input features to
different experts. This enables each expert to specialize in processing their
corresponding sub-tasks. However, the gate's routing mechanism also gives rise
to narrow vision: the individual MoE's expert fails to use more samples in
learning the allocated sub-task, which in turn limits the MoE to further
improve its generalization ability. To effectively address this, we propose a
method called Mixture-of-Distilled-Expert (MoDE), which applies moderate mutual
distillation among experts to enable each expert to pick up more features
learned by other experts and gain more accurate perceptions on their original
allocated sub-tasks. We conduct plenty experiments including tabular, NLP and
CV datasets, which shows MoDE's effectiveness, universality and robustness.
Furthermore, we develop a parallel study through innovatively constructing
"expert probing", to experimentally prove why MoDE works: moderate distilling
knowledge can improve each individual expert's test performances on their
assigned tasks, leading to MoE's overall performance improvement.
- Abstract(参考訳): モデルの性能を向上させる能力により,Mixix-of-Experts (MoE) が普及している。
MoE構造では、ゲート層は異なる専門家に入力機能の識別とルーティングに重要な役割を果たす。
これにより、各専門家が対応するサブタスクの処理を専門化できる。
個々のMoEの専門家は、割り当てられたサブタスクの学習により多くのサンプルを使用することができず、その結果、MoEはその一般化能力をさらに向上するために制限される。
そこで本研究では,各専門家が他の専門家から学んだより多くの特徴を抽出し,元のサブタスクでより正確な認識を得られるように,専門家間で適度な相互蒸留を行う方法であるmixed-of-distilled-expert(mode)を提案する。
我々は,表計算,NLP,CVデータセットなどの実験を行い,MoDEの有効性,普遍性,堅牢性を示す。
さらに, 「専門家調査」 を革新的に構築し, モードが機能する理由を実験的に証明する並列研究を行った。 適度な蒸留知識は, 与えられたタスクにおける個々の専門家のテスト性能を改善し, moe の全体的な性能改善に繋がる。
関連論文リスト
- Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts
via Dynamic Transfer [27.0250806999889]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts [79.82187318830955]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Improving Expert Specialization in Mixture of Experts [0.7366405857677227]
エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
論文 参考訳(メタデータ) (2023-02-28T16:16:45Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。