論文の概要: HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou
- arxiv url: http://arxiv.org/abs/2408.05430v1
- Date: Sat, 10 Aug 2024 04:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:01:07.726504
- Title: HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou
- Title(参考訳): HoME: Kuaishouでのマルチタスク学習のためのマルチゲートエキスパートの階層
- Authors: Xu Wang, Jiangxia Cao, Zhiyi Fu, Kun Gai, Guorui Zhou,
- Abstract要約: クアイショーのショートビデオサービスで学んだ実践的問題と教訓について紹介する。
業界では、広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムである。
- 参考スコア(独自算出の注目度): 19.113649341888532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the practical problems and the lessons learned at short-video services from Kuaishou. In industry, a widely-used multi-task framework is the Mixture-of-Experts (MoE) paradigm, which always introduces some shared and specific experts for each task and then uses gate networks to measure related experts' contributions. Although the MoE achieves remarkable improvements, we still observe three anomalies that seriously affect model performances in our iteration: (1) Expert Collapse: We found that experts' output distributions are significantly different, and some experts have over 90% zero activations with ReLU, making it hard for gate networks to assign fair weights to balance experts. (2) Expert Degradation: Ideally, the shared-expert aims to provide predictive information for all tasks simultaneously. Nevertheless, we find that some shared-experts are occupied by only one task, which indicates that shared-experts lost their ability but degenerated into some specific-experts. (3) Expert Underfitting: In our services, we have dozens of behavior tasks that need to be predicted, but we find that some data-sparse prediction tasks tend to ignore their specific-experts and assign large weights to shared-experts. The reason might be that the shared-experts can perceive more gradient updates and knowledge from dense tasks, while specific-experts easily fall into underfitting due to their sparse behaviors. Motivated by those observations, we propose HoME to achieve a simple, efficient and balanced MoE system for multi-task learning.
- Abstract(参考訳): 本稿では,クアイショーのショートビデオサービスで学んだ実践的問題と教訓について述べる。
業界で広く使われているマルチタスクフレームワークはMixture-of-Experts(MoE)パラダイムであり、これは常にタスクごとに共有された特定の専門家を紹介し、関連する専門家の貢献を測定するためにゲートネットワークを使用する。
1) 専門家の崩壊: 専門家のアウトプット分布は大きく異なり、専門家の中にはReLUで90%以上のアクティベーションがゼロであることに気付きました。
2) 専門家劣化: 理想的には、共有専門家は、全てのタスクに同時に予測情報を提供することを目的としている。
それにもかかわらず、一部の共有専門家は1つのタスクのみによって占有されており、これは共有専門家がその能力を失ったが、特定の専門家に分解されたことを示している。
(3) 専門家不足: 当社のサービスでは、予測すべき行動タスクが数十個ありますが、データスパースな予測タスクでは、特定の専門家を無視して、共有専門家に大きな重みを割り当てる傾向があります。
その理由は、共有専門家がより厳密なタスクからより勾配の更新や知識を知覚できるのに対して、特定の専門家はスパースな振る舞いのために容易に不適合になるためかもしれない。
これらの観測により,マルチタスク学習のためのシンプルで効率的かつバランスの取れたMoEシステムを実現するため,HoMEを提案する。
関連論文リスト
- Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Learning More Generalized Experts by Merging Experts in Mixture-of-Experts [0.5221459608786241]
共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを示す。
2つの最も頻度の高い専門家を合併し、最も頻度の低い専門家を専門家の組み合わせを使って更新します。
本アルゴリズムは,多領域タスクインクリメンタル学習に適用した場合に,伝達学習を強化し,破滅的な忘れを緩和する。
論文 参考訳(メタデータ) (2024-05-19T11:55:48Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - MoDE: A Mixture-of-Experts Model with Mutual Distillation among the
Experts [15.535613294871487]
我々はMixture-of-Distilled-Expert (MoDE) という手法を提案する。
MoDEは専門家の間で適度な相互蒸留を適用し、各専門家が他の専門家から学んだより多くの特徴を拾えるようにする。
論文 参考訳(メタデータ) (2024-01-31T03:52:32Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。