論文の概要: Emergent Mixture-of-Experts: Can Dense Pre-trained Transformers Benefit
from Emergent Modular Structures?
- arxiv url: http://arxiv.org/abs/2310.10908v1
- Date: Tue, 17 Oct 2023 01:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:25:43.416654
- Title: Emergent Mixture-of-Experts: Can Dense Pre-trained Transformers Benefit
from Emergent Modular Structures?
- Title(参考訳): 創発的混合実験:創発的モジュラ構造から事前学習されたトランスフォーマーに相応しいか?
- Authors: Zihan Qiu, Zeyu Huang, Jie Fu
- Abstract要約: textbfEmergent $textbfM$ixture-$textbfo$f-$textbfE$xperts (EMoE) がオリジナルのモデルのモジュラー版であることを示す。
実験によると、EMoEはドメイン内の能力とドメイン外の能力を効果的に向上する。
- 参考スコア(独自算出の注目度): 30.485013159730265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating modular designs into neural networks demonstrates superior
out-of-generalization, learning efficiency, etc. Existing modular neural
networks are generally $\textit{explicit}$ because their modular architectures
are pre-defined, and individual modules are expected to implement distinct
functions. Conversely, recent works reveal that there exist $\textit{implicit}$
modular structures in standard pre-trained transformers, namely
$\textit{Emergent Modularity}$. They indicate that such modular structures
exhibit during the early pre-training phase and are totally spontaneous.
However, most transformers are still treated as monolithic models with their
modular natures underutilized. Therefore, given the excellent properties of
explicit modular architecture, we explore $\textit{whether and how dense
pre-trained transformers can benefit from emergent modular structures.}$ To
study this question, we construct \textbf{E}mergent
$\textbf{M}$ixture-$\textbf{o}$f-$\textbf{E}$xperts (EMoE). Without introducing
additional parameters, EMoE can be seen as the modular counterpart of the
original model and can be effortlessly incorporated into downstream tuning.
Extensive experiments (we tune 1785 models) on various downstream tasks (vision
and language) and models (22M to1.5B) demonstrate that EMoE effectively boosts
in-domain and out-of-domain generalization abilities. Further analysis and
ablation study suggest that EMoE mitigates negative knowledge transfer and is
robust to various configurations. Code is available at
\url{https://github.com/qiuzh20/EMoE}
- Abstract(参考訳): モジュール設計をニューラルネットワークに組み込むことで、優れた一般化、学習効率などが証明される。
既存のモジュラーニューラルネットワークは、モジュールアーキテクチャが事前に定義されており、個々のモジュールが個別の機能を実装することが期待されているため、一般的に$\textit{explicit}$である。
逆に、最近の研究では、標準事前学習されたトランスフォーマーに$\textit{implicit}$モジュール構造が存在していることが明らかになっている。
これらのモジュラー構造は、事前訓練の初期段階に現れ、完全に自発的であることを示している。
しかし、ほとんどのトランスフォーマーはモジュラー性が不十分なモノリシックモデルとして扱われている。
したがって、明示的なモジュラーアーキテクチャの優れた特性を考えると、$\textit{whether と、事前学習されたトランスフォーマーが創発的なモジュラー構造からどのように恩恵を受けるかを探求する。
この問題を研究するために、我々は \textbf{e}mergent $\textbf{m}$ixture-$\textbf{o}$f-$\textbf{e}$xperts (emoe) を構築します。
追加のパラメータを導入することなく、EMoEはオリジナルのモデルのモジュラー版と見なすことができ、ダウンストリームチューニングに懸命に組み込むことができる。
様々な下流タスク(ビジョンと言語)とモデル(22Mから1.5B)に対する大規模な実験(1785モデルをチューニング)により、EMoEはドメイン内およびドメイン外の一般化能力を効果的に向上することを示した。
さらなる分析およびアブレーション研究により、EMoEは負の知識伝達を緩和し、様々な構成に対して堅牢であることが示唆された。
コードは \url{https://github.com/qiuzh20/EMoE} で入手できる。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - Mixture of Tokens: Continuous MoE through Cross-Example Aggregation [0.7880651741080428]
エキスパートの混合(MoE)モデルは、言語とビジョンタスクの境界を押し広げています。
MoTは単純で連続的なアーキテクチャであり、スパースMoEモデルと同様にパラメータの数をスケーリングすることができる。
我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルよりも3倍のトレーニング速度を達成する。
論文 参考訳(メタデータ) (2023-10-24T16:03:57Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Is a Modular Architecture Enough? [80.32451720642209]
我々は、シンプルで既知のモジュラーデータ分散のレンズを通して、共通のモジュラーアーキテクチャを徹底的に評価する。
モジュール化と疎結合のメリットを強調し、モジュール化システムの最適化において直面する課題に関する洞察を明らかにします。
論文 参考訳(メタデータ) (2022-06-06T16:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。