論文の概要: ModuleFormer: Learning Modular Large Language Models From Uncurated Data
- arxiv url: http://arxiv.org/abs/2306.04640v1
- Date: Wed, 7 Jun 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:05:04.926240
- Title: ModuleFormer: Learning Modular Large Language Models From Uncurated Data
- Title(参考訳): ModuleFormer: 不正なデータからモジュール型の大規模言語モデルを学ぶ
- Authors: Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen,
Chuang Gan
- Abstract要約: 本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
- 参考スコア(独自算出の注目度): 51.646112768306814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable results. But existing
models are expensive to train and deploy, and it is also difficult to expand
their knowledge beyond pre-training data without forgetting previous knowledge.
This paper proposes a new neural network architecture, ModuleFormer, that
leverages modularity to improve the efficiency and flexibility of large
language models. ModuleFormer is based on the Sparse Mixture of Experts (SMoE).
Unlike the previous SMoE-based modular language model [Gururangan et al.,
2021], which requires domain-labeled data to learn domain-specific experts,
ModuleFormer can induce modularity from uncurated data with its new load
balancing and load concentration losses. ModuleFormer is a modular architecture
that includes two different types of modules, new stick-breaking attention
heads, and feedforward experts. Different modules are sparsely activated
conditions on the input token during training and inference. In our experiment,
we found that the modular architecture enables three important abilities for
large pre-trained language models: 1) Efficiency, since ModuleFormer only
activates a subset of its modules for each input token, thus it could achieve
the same performance as dense LLMs with more than two times throughput; 2)
Extendability, ModuleFormer is more immune to catastrophic forgetting than
dense LLMs and can be easily extended with new modules to learn new knowledge
that is not included in the training data; 3) Specialisation, finetuning
ModuleFormer could specialize a subset of modules to the finetuning task, and
the task-unrelated modules could be easily pruned for a lightweight deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい結果を得た。
しかし、既存のモデルはトレーニングやデプロイに費用がかかり、以前の知識を忘れずに事前学習データを超えて知識を拡張することも難しい。
本稿では,モジュール性を活用して大規模言語モデルの効率性と柔軟性を向上させるニューラルネットワークアーキテクチャであるModuleFormerを提案する。
ModuleFormerはSparse Mixture of Experts (SMoE)をベースにしている。
従来のSMoEベースのモジュラー言語モデル(Gururangan et al., 2021)とは異なり、ModuleFormerは、新しいロードバランシングとロード集中損失によって、未処理のデータからモジュラリティを誘導することができる。
moduleformerはモジュールアーキテクチャで、2つの異なるタイプのモジュール、新しい画期的な注目ヘッド、feedforwardの専門家を含む。
異なるモジュールは、トレーニングと推論中に入力トークンに対してわずかに活性化される条件である。
実験の結果,大規模な事前学習型言語モデルにおいて,モジュールアーキテクチャが3つの重要な機能を実現することがわかった。
1) 効率性,ModuleFormerは各入力トークンに対してモジュールのサブセットのみを起動するため,2倍以上のスループットを持つ高密度LLMと同じパフォーマンスを実現することができる。
2) 拡張性,ModuleFormerは,高密度LLMよりも破滅的な忘れ方に対して免疫性が高く,トレーニングデータに含まれない新たな知識を学ぶために,新たなモジュールで容易に拡張することができる。
3) 特別化、微調整モジュールFormerは、細調整タスクにモジュールのサブセットを特化することができ、タスク非関連モジュールは、軽量なデプロイメントのために容易に刈り取られる。
関連論文リスト
- Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - Unlocking Emergent Modularity in Large Language Models [27.12431620957652]
標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
論文 参考訳(メタデータ) (2023-10-17T01:02:32Z) - Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。
このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。
LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-06-26T17:33:21Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。