論文の概要: ModuleFormer: Learning Modular Large Language Models From Uncurated Data
- arxiv url: http://arxiv.org/abs/2306.04640v1
- Date: Wed, 7 Jun 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:05:04.926240
- Title: ModuleFormer: Learning Modular Large Language Models From Uncurated Data
- Title(参考訳): ModuleFormer: 不正なデータからモジュール型の大規模言語モデルを学ぶ
- Authors: Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen,
Chuang Gan
- Abstract要約: 本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
- 参考スコア(独自算出の注目度): 51.646112768306814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable results. But existing
models are expensive to train and deploy, and it is also difficult to expand
their knowledge beyond pre-training data without forgetting previous knowledge.
This paper proposes a new neural network architecture, ModuleFormer, that
leverages modularity to improve the efficiency and flexibility of large
language models. ModuleFormer is based on the Sparse Mixture of Experts (SMoE).
Unlike the previous SMoE-based modular language model [Gururangan et al.,
2021], which requires domain-labeled data to learn domain-specific experts,
ModuleFormer can induce modularity from uncurated data with its new load
balancing and load concentration losses. ModuleFormer is a modular architecture
that includes two different types of modules, new stick-breaking attention
heads, and feedforward experts. Different modules are sparsely activated
conditions on the input token during training and inference. In our experiment,
we found that the modular architecture enables three important abilities for
large pre-trained language models: 1) Efficiency, since ModuleFormer only
activates a subset of its modules for each input token, thus it could achieve
the same performance as dense LLMs with more than two times throughput; 2)
Extendability, ModuleFormer is more immune to catastrophic forgetting than
dense LLMs and can be easily extended with new modules to learn new knowledge
that is not included in the training data; 3) Specialisation, finetuning
ModuleFormer could specialize a subset of modules to the finetuning task, and
the task-unrelated modules could be easily pruned for a lightweight deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい結果を得た。
しかし、既存のモデルはトレーニングやデプロイに費用がかかり、以前の知識を忘れずに事前学習データを超えて知識を拡張することも難しい。
本稿では,モジュール性を活用して大規模言語モデルの効率性と柔軟性を向上させるニューラルネットワークアーキテクチャであるModuleFormerを提案する。
ModuleFormerはSparse Mixture of Experts (SMoE)をベースにしている。
従来のSMoEベースのモジュラー言語モデル(Gururangan et al., 2021)とは異なり、ModuleFormerは、新しいロードバランシングとロード集中損失によって、未処理のデータからモジュラリティを誘導することができる。
moduleformerはモジュールアーキテクチャで、2つの異なるタイプのモジュール、新しい画期的な注目ヘッド、feedforwardの専門家を含む。
異なるモジュールは、トレーニングと推論中に入力トークンに対してわずかに活性化される条件である。
実験の結果,大規模な事前学習型言語モデルにおいて,モジュールアーキテクチャが3つの重要な機能を実現することがわかった。
1) 効率性,ModuleFormerは各入力トークンに対してモジュールのサブセットのみを起動するため,2倍以上のスループットを持つ高密度LLMと同じパフォーマンスを実現することができる。
2) 拡張性,ModuleFormerは,高密度LLMよりも破滅的な忘れ方に対して免疫性が高く,トレーニングデータに含まれない新たな知識を学ぶために,新たなモジュールで容易に拡張することができる。
3) 特別化、微調整モジュールFormerは、細調整タスクにモジュールのサブセットを特化することができ、タスク非関連モジュールは、軽量なデプロイメントのために容易に刈り取られる。
関連論文リスト
- Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers [28.928438642661934]
本稿では,モジュール間の知識伝達のための一般モジュール間知識蒸留法(m2mKD)を提案する。
ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つの異なるモジュール型ニューラルネットワークに対するm2mKDの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-26T04:47:32Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models [74.48765681246947]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - Unlocking Emergent Modularity in Large Language Models [27.12431620957652]
標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
論文 参考訳(メタデータ) (2023-10-17T01:02:32Z) - CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。
このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。
LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-06-26T17:33:21Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。