論文の概要: Learning More Generalized Experts by Merging Experts in Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2405.11530v1
- Date: Sun, 19 May 2024 11:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 15:22:21.040415
- Title: Learning More Generalized Experts by Merging Experts in Mixture-of-Experts
- Title(参考訳): 専門知識の融合によるより一般化されたエキスパートの学習
- Authors: Sejik Park,
- Abstract要約: 共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを示す。
2つの最も頻度の高い専門家を合併し、最も頻度の低い専門家を専門家の組み合わせを使って更新します。
本アルゴリズムは,多領域タスクインクリメンタル学習に適用した場合に,伝達学習を強化し,破滅的な忘れを緩和する。
- 参考スコア(独自算出の注目度): 0.5221459608786241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe that incorporating a shared layer in a mixture-of-experts can lead to performance degradation. This leads us to hypothesize that learning shared features poses challenges in deep learning, potentially caused by the same feature being learned as various different features. To address this issue, we track each expert's usage frequency and merge the two most frequently selected experts. We then update the least frequently selected expert using the combination of experts. This approach, combined with the subsequent learning of the router's expert selection, allows the model to determine if the most frequently selected experts have learned the same feature differently. If they have, the combined expert can be further trained to learn a more general feature. Consequently, our algorithm enhances transfer learning and mitigates catastrophic forgetting when applied to multi-domain task incremental learning.
- Abstract(参考訳): 共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを観察する。
このことは、共有する機能の学習が深層学習の課題を生じさせる、と仮定する。
この問題に対処するために、各専門家の使用頻度を追跡し、最も頻繁に選択された2人の専門家をマージする。
次に、専門家の組み合わせを使って、最も頻度の低い専門家を更新します。
このアプローチは、その後のルータのエキスパート選択の学習と組み合わせて、最も頻繁に選択された専門家が同じ機能を異なる方法で学習したかどうかをモデルが判断することを可能にする。
もしそれがあれば、統合された専門家はより一般的な機能を学ぶためにさらに訓練することができる。
その結果,本アルゴリズムは伝達学習を強化し,多領域タスクインクリメンタル学習に適用した場合の破滅的な忘れを緩和する。
関連論文リスト
- HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - Divide and not forget: Ensemble of selectively trained experts in Continual Learning [0.2886273197127056]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文 参考訳(メタデータ) (2024-01-18T18:25:29Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - NCL++: Nested Collaborative Learning for Long-Tailed Visual Recognition [63.90327120065928]
本研究では,Nested Collaborative Learning (NCL++)を提案する。
長期学習における協調学習を実現するために,バランスの取れたオンライン蒸留を提案する。
混乱するカテゴリにおける細かな識別能力を改善するために,さらにハードカテゴリーマイニングを提案する。
論文 参考訳(メタデータ) (2023-06-29T06:10:40Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Nested Collaborative Learning for Long-Tailed Visual Recognition [71.6074806468641]
NCLはNested Individual Learning (NIL)とNested Balanced Online Distillation (NBOD)の2つのコアコンポーネントから構成される。
表現をより徹底的に学習するために、NILとNBODはネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかのハードなカテゴリに対して行われる。
NCLでは、2つの視点から学ぶことはネストされ、非常に関連があり、補完的であり、ネットワークがグローバルでロバストな特徴だけでなく、注意深く区別する能力も捉えるのに役立つ。
論文 参考訳(メタデータ) (2022-03-29T08:55:39Z) - Online Learning with Uncertain Feedback Graphs [12.805267089186533]
専門家間の関係をフィードバックグラフで把握し、学習者の意思決定を支援する。
実際には、名目上のフィードバックグラフはしばしば不確実性を伴うため、専門家間の実際の関係を明らかにすることは不可能である。
本研究は、潜在的な不確実性の諸事例を考察し、それらを扱うための新しいオンライン学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-15T21:21:30Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。