論文の概要: Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora
- arxiv url: http://arxiv.org/abs/2110.08534v1
- Date: Sat, 16 Oct 2021 09:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:59:49.769463
- Title: Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora
- Title(参考訳): Lifelong Pretraining: 新たなコーパスへの言語モデルの継続的な適応
- Authors: Xisen Jin, Dejiao Zhang, Henghui Zhu, Wei Xiao, Shang-Wen Li, Xiaokai
Wei, Andrew Arnold, Xiang Ren
- Abstract要約: 本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
- 参考スコア(独自算出の注目度): 31.136334214818305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PTLMs) are typically learned over a large, static
corpus and further fine-tuned for various downstream tasks. However, when
deployed in the real world, a PTLM-based model must deal with data from a new
domain that deviates from what the PTLM was initially trained on, or newly
emerged data that contains out-of-distribution information. In this paper, we
study a lifelong language model pretraining challenge where a PTLM is
continually updated so as to adapt to emerging data. Over a domain-incremental
research paper stream and a chronologically ordered tweet stream, we
incrementally pretrain a PTLM with different continual learning algorithms, and
keep track of the downstream task performance (after fine-tuning) to analyze
its ability of acquiring new knowledge and preserving learned knowledge. Our
experiments show continual learning algorithms improve knowledge preservation,
with logit distillation being the most effective approach. We further show that
continual pretraining improves generalization when training and testing data of
downstream tasks are drawn from different time steps, but do not improve when
they are from the same time steps. We believe our problem formulation, methods,
and analysis will inspire future studies towards continual pretraining of
language models.
- Abstract(参考訳): 事前訓練された言語モデル(PTLM)は、通常、大きな静的コーパス上で学習され、様々な下流タスクのためにさらに微調整される。
しかし、現実世界に配備された場合、PTLMベースのモデルは、PTLMが最初にトレーニングしたデータから逸脱した新しいドメインや、配布外情報を含む新たなデータを扱う必要がある。
本稿では,ptlmを継続的に更新して新たなデータに適応させる,生涯にわたる言語モデルの事前学習課題について検討する。
ドメインインクリメンタルな研究用ペーパーストリームと時系列順序付けされたツイートストリーム上で,ptlmを連続学習アルゴリズムで段階的に事前学習し,下流のタスクパフォーマンス(微調整後)を追跡し,新しい知識の獲得と学習知識の保存能力を分析する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
さらに、連続事前学習は、下流タスクのトレーニングとテストが異なる時間ステップから引き出される場合の一般化を改善するが、同じ時間ステップの場合には改善しないことを示す。
私たちの問題定式化、方法、分析は、言語モデルの継続的な事前学習への将来の研究を刺激すると信じています。
関連論文リスト
- Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? [19.34040322172224]
テキストドメイン上でモデルをトレーニングすることは、同じドメインのテスト部分において、その難易度を低下させる可能性があることを示す。
我々の発見は、いつモデルを適応するか、いつ基礎的な能力に頼るかを決める上で、私たちを導くでしょう。
論文 参考訳(メタデータ) (2024-10-08T00:37:16Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Lifelong Language Pretraining with Distribution-Specialized Experts [39.86463645187337]
Lifelong Learningの目的は、情報システムが時間にわたって連続したデータストリームから学習できるようにすることだ。
モデルキャパシティを動的に追加するMoEアーキテクチャであるLifelong-MoEを提案する。
既存の生涯学習アプローチと比較して、Lifelong-MoEは、19の下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-20T21:15:19Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Continual Pre-Training Mitigates Forgetting in Language and Vision [43.80547864450793]
絶え間なく事前訓練されたモデルは破滅的な忘れ物に対して堅牢であることを示す。
本稿では,自己指導型事前学習が,教師付きプロトコルよりも事前知識の保持に有効であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-05-19T07:27:12Z) - ELLE: Efficient Lifelong Pre-training for Emerging Data [91.52652408402815]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。
新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。
ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文 参考訳(メタデータ) (2022-03-12T01:53:53Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - AMMUS : A Survey of Transformer-based Pretrained Models in Natural
Language Processing [0.0]
トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。
変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学習する。
これらのモデルは、下流モデルのスクラッチからのトレーニングを避けるために、下流タスクに適切なバックグラウンド知識を提供する。
論文 参考訳(メタデータ) (2021-08-12T05:32:18Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。