論文の概要: Harder Tasks Need More Experts: Dynamic Routing in MoE Models
- arxiv url: http://arxiv.org/abs/2403.07652v1
- Date: Tue, 12 Mar 2024 13:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:25:27.688632
- Title: Harder Tasks Need More Experts: Dynamic Routing in MoE Models
- Title(参考訳): より厳しいタスクには専門家が必要だ - MoEモデルの動的ルーティング
- Authors: Quzhe Huang, Zhenwei An, Nan Zhuang, Mingxu Tao, Chen Zhang, Yang Jin,
Kun Xu, Kun Xu, Liwei Chen, Songfang Huang, Yansong Feng
- Abstract要約: 本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
- 参考スコア(独自算出の注目度): 58.18526590138739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel dynamic expert selection framework for
Mixture of Experts (MoE) models, aiming to enhance computational efficiency and
model performance by adjusting the number of activated experts based on input
difficulty. Unlike traditional MoE approaches that rely on fixed Top-K routing,
which activates a predetermined number of experts regardless of the input's
complexity, our method dynamically selects experts based on the confidence
level in expert selection for each input. This allows for a more efficient
utilization of computational resources, activating more experts for complex
tasks requiring advanced reasoning and fewer for simpler tasks. Through
extensive evaluations, our dynamic routing method demonstrates substantial
improvements over conventional Top-2 routing across various benchmarks,
achieving an average improvement of 0.7% with less than 90% activated
parameters. Further analysis shows our model dispatches more experts to tasks
requiring complex reasoning skills, like BBH, confirming its ability to
dynamically allocate computational resources in alignment with the input's
complexity. Our findings also highlight a variation in the number of experts
needed across different layers of the transformer model, offering insights into
the potential for designing heterogeneous MoE frameworks. The code and models
are available at https://github.com/ZhenweiAn/Dynamic_MoE.
- Abstract(参考訳): 本稿では, 入力の難易度に応じて専門家数を調整することにより, 計算効率とモデル性能を向上させることを目的とした, 混合専門家モデルのための動的エキスパート選択フレームワークを提案する。
入力の複雑さに関係なく、所定の数のエキスパートを活性化する固定トップkルーティングに依存する従来のmoeアプローチとは異なり、各入力に対する専門家選択の信頼性レベルに基づいて専門家を動的に選択する。
これにより、より効率的な計算資源の利用が可能になり、より高度な推論を必要とする複雑なタスクのエキスパートの活性化と、より単純なタスクの削減が可能になる。
提案手法は,様々なベンチマークにおいて従来のTop-2ルーティングよりも大幅に改善され,90%未満のアクティベートパラメータで平均0.7%の改善が達成された。
さらに分析した結果、BBHのような複雑な推論スキルを必要とするタスクに専門家を配置し、入力の複雑さに合わせて計算資源を動的に割り当てる能力を確認した。
この結果はまた、トランスフォーマーモデルのさまざまな層にまたがる専門家の数の変化を強調し、異種MOEフレームワークを設計する可能性についての洞察を提供する。
コードとモデルはhttps://github.com/zhenweian/dynamic_moeで入手できる。
関連論文リスト
- HyperMoE: Paying Attention to Unselected Experts in Mixture of Experts
via Dynamic Transfer [27.0250806999889]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - On Least Squares Estimation in Softmax Gating Mixture of Experts [85.61224527426624]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts [15.535613294871487]
我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。
MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
論文 参考訳(メタデータ) (2024-01-31T03:52:32Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Eliciting Transferability in Multi-task Learning with Task-level
Mixture-of-Experts [29.34065746373841]
トランスモデルは多様なNLPタスクでマルチタスク学習を行うことができる。
人間は、どんなスキルや知識が関連しているかを適切に推定することで、より柔軟な方法でタスクに取り組む。
学習したルーティング決定と専門家は、NLPタスクの人間の分類を部分的に再発見する。
論文 参考訳(メタデータ) (2022-05-25T11:59:05Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。