Fugu-MT 論文翻訳(概要): MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts

論文の概要: MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts

arxiv url: http://arxiv.org/abs/2402.00893v1
Date: Wed, 31 Jan 2024 03:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:30:19.618428
Title: MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts
Title（参考訳）: mode: 専門家間の相互蒸留を伴う混合専門家モデル
Authors: Zhitian Xie, Yinger Zhang, Chenyi Zhuang, Qitao Shi, Zhining Liu, Jinjie Gu, Guannan Zhang
Abstract要約: 我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。 MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
参考スコア（独自算出の注目度）: 15.535613294871487
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The application of mixture-of-experts (MoE) is gaining popularity due to its ability to improve model's performance. In an MoE structure, the gate layer plays a significant role in distinguishing and routing input features to different experts. This enables each expert to specialize in processing their corresponding sub-tasks. However, the gate's routing mechanism also gives rise to narrow vision: the individual MoE's expert fails to use more samples in learning the allocated sub-task, which in turn limits the MoE to further improve its generalization ability. To effectively address this, we propose a method called Mixture-of-Distilled-Expert (MoDE), which applies moderate mutual distillation among experts to enable each expert to pick up more features learned by other experts and gain more accurate perceptions on their original allocated sub-tasks. We conduct plenty experiments including tabular, NLP and CV datasets, which shows MoDE's effectiveness, universality and robustness. Furthermore, we develop a parallel study through innovatively constructing "expert probing", to experimentally prove why MoDE works: moderate distilling knowledge can improve each individual expert's test performances on their assigned tasks, leading to MoE's overall performance improvement.
Abstract（参考訳）: モデルの性能を向上させる能力により,Mixix-of-Experts (MoE) が普及している。 MoE構造では、ゲート層は異なる専門家に入力機能の識別とルーティングに重要な役割を果たす。これにより、各専門家が対応するサブタスクの処理を専門化できる。個々のMoEの専門家は、割り当てられたサブタスクの学習により多くのサンプルを使用することができず、その結果、MoEはその一般化能力をさらに向上するために制限される。そこで本研究では,各専門家が他の専門家から学んだより多くの特徴を抽出し,元のサブタスクでより正確な認識を得られるように,専門家間で適度な相互蒸留を行う方法であるmixed-of-distilled-expert(mode)を提案する。我々は,表計算,NLP,CVデータセットなどの実験を行い,MoDEの有効性,普遍性,堅牢性を示す。さらに, 「専門家調査」を革新的に構築し, モードが機能する理由を実験的に証明する並列研究を行った。適度な蒸留知識は, 与えられたタスクにおける個々の専門家のテスト性能を改善し, moe の全体的な性能改善に繋がる。

関連論文リスト

CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning [5.161314094237747]
我々は,MoEのモジュール化と特殊化を促進するために,MoE(CoMoE)のコントラスト表現を提案する。いくつかのベンチマークやマルチタスク環境での実験では、CoMoEはMoEのキャパシティを継続的に向上し、専門家間のモジュール化を促進することができる。
論文参考訳（メタデータ） (2025-05-23T06:58:44Z)
Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models [5.211806751260724]
本稿では,専門家間の協調パターンを明らかにする階層型スパース辞書学習法を提案する。また、コントリビューション・アウェア・エキスパート・プルーニング(CAEP)アルゴリズムを導入し、低コントリビューション・エキスパートを効果的に育成する。
論文参考訳（メタデータ） (2025-04-16T04:06:15Z)
OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。これらの知見に触発されて、直交混合(OMoE)を提案する。提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文参考訳（メタデータ） (2025-01-17T09:27:08Z)
ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
我々は、MoE構造をViT(Vision Transformer)に統合し、ViMoEと命名し、MoEを視覚に適用する可能性を探る。性能はMoE層の構成に敏感であり,設計を慎重に行わずに最適な結果を得ることが困難である。これを解決するために、共有専門家を導入し、共通情報を学習し、取得し、安定したViMoEを構築する効果的な方法として役立てる。
論文参考訳（メタデータ） (2024-10-21T07:51:17Z)
HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。 HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文参考訳（メタデータ） (2024-08-20T09:35:24Z)
HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou [19.113649341888532]
クアイショーのショートビデオサービスで学んだ実践的問題と教訓について紹介する。業界では、広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムである。
論文参考訳（メタデータ） (2024-08-10T04:25:48Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文参考訳（メタデータ） (2024-03-12T13:41:15Z)
HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文参考訳（メタデータ） (2024-02-20T02:09:55Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。