Fugu-MT 論文翻訳(概要): HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts via Dynamic Transfer

論文の概要: HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts via Dynamic Transfer

arxiv url: http://arxiv.org/abs/2402.12656v2
Date: Sun, 25 Feb 2024 02:34:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:17:52.877071
Title: HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts via Dynamic Transfer
Title（参考訳）: hypermoe: ダイナミックトランスファーによる専門家の混合における非選択専門家の注意を払う
Authors: Hao Zhao, Zihan Qiu, Huijia Wu, Zili Wang, Zhaofeng He, Jie Fu
Abstract要約: 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
参考スコア（独自算出の注目度）: 27.0250806999889
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
Abstract（参考訳）: 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。専門家の知識の利用の増加によるパフォーマンスの向上は、専門家の選考においてスパーシティの低下を招きます。この矛盾を緩和するため、Hypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。選択されていない専門家の情報に基づいて生成される特定のモジュールは補足情報であり、選択されていない専門家の知識を選択範囲を維持しながら使用することができる。複数のデータセットやバックボーンにまたがる包括的な経験的評価により、HyperMoEは、専門家数に関する同じ条件下で、既存のMoEメソッドを著しく上回ります。

関連論文リスト

CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning [5.161314094237747]
我々は,MoEのモジュール化と特殊化を促進するために,MoE(CoMoE)のコントラスト表現を提案する。いくつかのベンチマークやマルチタスク環境での実験では、CoMoEはMoEのキャパシティを継続的に向上し、専門家間のモジュール化を促進することができる。
論文参考訳（メタデータ） (2025-05-23T06:58:44Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。 HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文参考訳（メタデータ） (2024-08-20T09:35:24Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測 Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文参考訳（メタデータ） (2024-03-26T05:48:02Z)
Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文参考訳（メタデータ） (2024-03-12T13:41:15Z)
MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts [15.535613294871487]
我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。 MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
論文参考訳（メタデータ） (2024-01-31T03:52:32Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)
Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-01-06T12:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。