論文の概要: Lifelong Language Pretraining with Distribution-Specialized Experts
- arxiv url: http://arxiv.org/abs/2305.12281v1
- Date: Sat, 20 May 2023 21:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:21:41.946663
- Title: Lifelong Language Pretraining with Distribution-Specialized Experts
- Title(参考訳): 配布専門者による生涯言語訓練
- Authors: Wuyang Chen, Yanqi Zhou, Nan Du, Yanping Huang, James Laudon, Zhifeng
Chen, Claire Cu
- Abstract要約: Lifelong Learningの目的は、情報システムが時間にわたって連続したデータストリームから学習できるようにすることだ。
モデルキャパシティを動的に追加するMoEアーキテクチャであるLifelong-MoEを提案する。
既存の生涯学習アプローチと比較して、Lifelong-MoEは、19の下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 39.86463645187337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining on a large-scale corpus has become a standard method to build
general language models (LMs). Adapting a model to new data distributions
targeting different downstream tasks poses significant challenges. Naive
fine-tuning may incur catastrophic forgetting when the over-parameterized LMs
overfit the new data but fail to preserve the pretrained features. Lifelong
learning (LLL) aims to enable information systems to learn from a continuous
data stream across time. However, most prior work modifies the training recipe
assuming a static fixed network architecture. We find that additional model
capacity and proper regularization are key elements to achieving strong LLL
performance. Thus, we propose Lifelong-MoE, an extensible MoE
(Mixture-of-Experts) architecture that dynamically adds model capacity via
adding experts with regularized pretraining. Our results show that by only
introducing a limited number of extra experts while keeping the computation
cost constant, our model can steadily adapt to data distribution shifts while
preserving the previous knowledge. Compared to existing lifelong learning
approaches, Lifelong-MoE achieves better few-shot performance on 19 downstream
NLP tasks.
- Abstract(参考訳): 大規模コーパスでの事前学習は、汎用言語モデル(LM)を構築する標準的な方法となっている。
異なる下流タスクをターゲットにした新しいデータ分散にモデルを適用することは、大きな課題となる。
微調整は、過度にパラメータ化されたLMが新しいデータに過度に適合するが、事前訓練された特徴を保存できない場合、破滅的な忘れを招きかねない。
Lifelong Learning(LLL)は、情報システムが時間の経過とともに連続的なデータストリームから学習できるようにすることを目的としている。
しかし、ほとんどの以前の作業は、静的な固定ネットワークアーキテクチャを想定したトレーニングレシピを変更する。
モデルキャパシティと適切な正規化が,強力なLLL性能を実現する上で重要な要素であることが判明した。
そこで本研究では,Mixture-of-Experts(Mixture-of-Experts)アーキテクチャであるLifelong-MoEを提案する。
その結果,計算コストを一定に保ちながら,限られた数の専門家のみを導入することで,従来の知識を保ちながら,データ分散シフトに着実に適応できることがわかった。
既存の生涯学習アプローチと比較して、Lifelong-MoEは、19下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - ELLE: Efficient Lifelong Pre-training for Emerging Data [91.52652408402815]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。
新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。
ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文 参考訳(メタデータ) (2022-03-12T01:53:53Z) - Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文 参考訳(メタデータ) (2021-10-16T09:59:33Z) - Continual Class Incremental Learning for CT Thoracic Segmentation [36.45569352490318]
深層学習機関のセグメンテーションアプローチは大量の注釈付きトレーニングデータを必要とするが、これは機密性の理由と専門家の手による注釈に必要な時間のために供給が限られている。
以前使用されていたデータにアクセスせずに、段階的にモデルをトレーニングできることが望ましい。
この設定では、モデルは新しいタスクを効果的に学習するが、以前に学習したタスクのパフォーマンスが低下する。
LwF(Learning without Forgetting)アプローチは、モデルトレーニング中に過去のタスクに対する独自の予測を再生することでこの問題に対処する。
従来のセグメンテーションに関する知識をLwFが保持できることを示すが、新しいクラスを学習する能力は減少する。
論文 参考訳(メタデータ) (2020-08-12T20:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。