論文の概要: ELLE: Efficient Lifelong Pre-training for Emerging Data
- arxiv url: http://arxiv.org/abs/2203.06311v1
- Date: Sat, 12 Mar 2022 01:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 13:20:02.660978
- Title: ELLE: Efficient Lifelong Pre-training for Emerging Data
- Title(参考訳): ELLE: 新興データのための効率的な生涯事前トレーニング
- Authors: Yujia Qin, Jiajie Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong
Sun, Jie Zhou
- Abstract要約: 現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。
新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。
ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
- 参考スコア(独自算出の注目度): 91.52652408402815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current pre-trained language models (PLM) are typically trained with static
data, ignoring that in real-world scenarios, streaming data of various sources
may continuously grow. This requires PLMs to integrate the information from all
the sources in a lifelong manner. Although this goal could be achieved by
exhaustive pre-training on all the existing data, such a process is known to be
computationally expensive. To this end, we propose ELLE, aiming at efficient
lifelong pre-training for emerging data. Specifically, ELLE consists of (1)
function preserved model expansion, which flexibly expands an existing PLM's
width and depth to improve the efficiency of knowledge acquisition; and (2)
pre-trained domain prompts, which disentangle the versatile knowledge learned
during pre-training and stimulate the proper knowledge for downstream tasks. We
experiment ELLE with streaming data from 5 domains on BERT and GPT. The results
show the superiority of ELLE over various lifelong learning baselines in both
pre-training efficiency and downstream performances. The codes are publicly
available at https://github.com/thunlp/ELLE.
- Abstract(参考訳): 現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。
このためにplmは、すべてのソースからの情報を生涯にわたって統合する必要がある。
この目標は、既存のすべてのデータに対する徹底的な事前トレーニングによって達成できるが、計算コストが高いことが知られている。
そこで本稿では,新興データに対する生涯学習の効率化を目的としたelleを提案する。
具体的には,(1)既存のPLMの幅と深さを柔軟に拡大して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多元的知識を混乱させ,下流タスクに適切な知識を刺激する事前学習ドメインプロンプトから構成される。
ELLEをBERTとGPTの5領域からのデータストリーミングで実験する。
その結果,ELLEは学習前学習効率と下流学習性能の両方において,生涯学習ベースラインよりも優れていた。
コードはhttps://github.com/thunlp/ELLEで公開されている。
関連論文リスト
- CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Lifelong Language Pretraining with Distribution-Specialized Experts [39.86463645187337]
Lifelong Learningの目的は、情報システムが時間にわたって連続したデータストリームから学習できるようにすることだ。
モデルキャパシティを動的に追加するMoEアーキテクチャであるLifelong-MoEを提案する。
既存の生涯学習アプローチと比較して、Lifelong-MoEは、19の下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-20T21:15:19Z) - On the Usage of Continual Learning for Out-of-Distribution
Generalization in Pre-trained Language Models of Code [12.708117108874083]
事前学習型言語モデル(PLM)は、コードの深層学習において一般的な技術となっている。
本稿では,APIコールとAPI利用予測という2つの下流タスクで広く利用されているPLMアーキテクチャについて検討する。
これらの課題に対処するため,リプレイベースおよび正規化ベースの手法を含む5つの連続学習手法を実装した。
論文 参考訳(メタデータ) (2023-05-06T18:00:21Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文 参考訳(メタデータ) (2021-10-16T09:59:33Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。