論文の概要: MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts
- arxiv url: http://arxiv.org/abs/2402.00893v1
- Date: Wed, 31 Jan 2024 03:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:30:19.618428
- Title: MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts
- Title(参考訳): mode: 専門家間の相互蒸留を伴う混合専門家モデル
- Authors: Zhitian Xie, Yinger Zhang, Chenyi Zhuang, Qitao Shi, Zhining Liu,
Jinjie Gu, Guannan Zhang
- Abstract要約: 我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。
MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
- 参考スコア(独自算出の注目度): 15.535613294871487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The application of mixture-of-experts (MoE) is gaining popularity due to its
ability to improve model's performance. In an MoE structure, the gate layer
plays a significant role in distinguishing and routing input features to
different experts. This enables each expert to specialize in processing their
corresponding sub-tasks. However, the gate's routing mechanism also gives rise
to narrow vision: the individual MoE's expert fails to use more samples in
learning the allocated sub-task, which in turn limits the MoE to further
improve its generalization ability. To effectively address this, we propose a
method called Mixture-of-Distilled-Expert (MoDE), which applies moderate mutual
distillation among experts to enable each expert to pick up more features
learned by other experts and gain more accurate perceptions on their original
allocated sub-tasks. We conduct plenty experiments including tabular, NLP and
CV datasets, which shows MoDE's effectiveness, universality and robustness.
Furthermore, we develop a parallel study through innovatively constructing
"expert probing", to experimentally prove why MoDE works: moderate distilling
knowledge can improve each individual expert's test performances on their
assigned tasks, leading to MoE's overall performance improvement.
- Abstract(参考訳): モデルの性能を向上させる能力により,Mixix-of-Experts (MoE) が普及している。
MoE構造では、ゲート層は異なる専門家に入力機能の識別とルーティングに重要な役割を果たす。
これにより、各専門家が対応するサブタスクの処理を専門化できる。
個々のMoEの専門家は、割り当てられたサブタスクの学習により多くのサンプルを使用することができず、その結果、MoEはその一般化能力をさらに向上するために制限される。
そこで本研究では,各専門家が他の専門家から学んだより多くの特徴を抽出し,元のサブタスクでより正確な認識を得られるように,専門家間で適度な相互蒸留を行う方法であるmixed-of-distilled-expert(mode)を提案する。
我々は,表計算,NLP,CVデータセットなどの実験を行い,MoDEの有効性,普遍性,堅牢性を示す。
さらに, 「専門家調査」 を革新的に構築し, モードが機能する理由を実験的に証明する並列研究を行った。 適度な蒸留知識は, 与えられたタスクにおける個々の専門家のテスト性能を改善し, moe の全体的な性能改善に繋がる。
関連論文リスト
- ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
我々は、MoE構造をViT(Vision Transformer)に統合し、ViMoEと命名し、MoEを視覚に適用する可能性を探る。
性能はMoE層の構成に敏感であり,設計を慎重に行わずに最適な結果を得ることが困難である。
これを解決するために、共有専門家を導入し、共通情報を学習し、取得し、安定したViMoEを構築する効果的な方法として役立てる。
論文 参考訳(メタデータ) (2024-10-21T07:51:17Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou [19.113649341888532]
クアイショーのショートビデオサービスで学んだ実践的問題と教訓について紹介する。
業界では、広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムである。
論文 参考訳(メタデータ) (2024-08-10T04:25:48Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。