論文の概要: Unlocking Emergent Modularity in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10908v2
- Date: Mon, 1 Apr 2024 11:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:52:33.876122
- Title: Unlocking Emergent Modularity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発的モジュラリティの解錠
- Authors: Zihan Qiu, Zeyu Huang, Jie Fu,
- Abstract要約: 標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
- 参考スコア(独自算出の注目度): 27.12431620957652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modular Neural Networks (MNNs) demonstrate various advantages over monolithic models. Existing MNNs are generally $\textit{explicit}$: their modular architectures are pre-defined, with individual modules expected to implement distinct functions. Recent works reveal that there exists $\textit{implicit}$ modularity in standard pre-trained transformers, namely $\textit{Emergent Modularity}$. They indicate that such modular structures spontaneously exhibit during the early pre-training phase. Despite the benefits of modularity, most Language Models (LMs) are still treated as monolithic models in the pre-train and fine-tune paradigm, with their emergent modularity locked and underutilized. In this work, focusing on unlocking the emergent modularity in LMs, we showcase that standard LMs could be fine-tuned as their Mixture-of-Expert (MoEs) counterparts without introducing any extra parameters. Such MoEs are derived from emergent modularity and are referred to as Emergent MoEs (EMoE). Our experiments demonstrate that fine-tuning EMoE effectively improves downstream in-domain and out-of-domain generalization compared with vanilla fine-tuning. Our analysis and ablation studies further illustrate that it is robust to various configurations and can scale up to Large Language Models (i.e., Llama2-7B and Llama-30B). Code is available at https://github.com/qiuzh20/EMoE.
- Abstract(参考訳): モジュラニューラルネットワーク(MNN)は、モノリシックモデルに対してさまざまな利点を示している。
既存のMNNは通常$\textit{explicit}$: モジュールアーキテクチャは事前に定義されており、個々のモジュールは異なる関数を実装することが期待されている。
最近の研究によると、標準的な事前訓練されたトランスフォーマーには $\textit{implicit}$モジュラリティ、すなわち $\textit{Emergent Modularity}$が存在する。
これらのモジュラー構造は、初期の事前訓練段階で自然に現れることを示唆している。
モジュラリティの利点にもかかわらず、ほとんどの言語モデル(LM)は、まだ事前訓練と微調整のパラダイムにおいてモノリシックなモデルとして扱われており、その創発的なモジュラリティはロックされ、未利用である。
本研究は,LMの創発的モジュラリティのアンロックに着目し,Mixture-of-Expert (MoEs) として,余分なパラメータを導入することなく,標準LMを微調整できることを実証する。
このような MoE は創発的モジュラリティから派生し、Emergent MoEs (EMoE) と呼ばれる。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
我々の分析およびアブレーション研究は、様々な構成に対して堅牢であり、Llama2-7BやLlama-30Bといった大規模言語モデルにまで拡張可能であることをさらに示している。
コードはhttps://github.com/qiuzh20/EMoEで入手できる。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - Mixture of Tokens: Continuous MoE through Cross-Example Aggregation [0.7880651741080428]
エキスパートの混合(MoE)モデルは、言語とビジョンタスクの境界を押し広げています。
MoTは単純で連続的なアーキテクチャであり、スパースMoEモデルと同様にパラメータの数をスケーリングすることができる。
我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルよりも3倍のトレーニング速度を達成する。
論文 参考訳(メタデータ) (2023-10-24T16:03:57Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Is a Modular Architecture Enough? [80.32451720642209]
我々は、シンプルで既知のモジュラーデータ分散のレンズを通して、共通のモジュラーアーキテクチャを徹底的に評価する。
モジュール化と疎結合のメリットを強調し、モジュール化システムの最適化において直面する課題に関する洞察を明らかにします。
論文 参考訳(メタデータ) (2022-06-06T16:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。