論文の概要: Continual Pre-training of Language Models
- arxiv url: http://arxiv.org/abs/2302.03241v4
- Date: Wed, 12 Apr 2023 10:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 17:58:58.153299
- Title: Continual Pre-training of Language Models
- Title(参考訳): 言語モデルの連続事前学習
- Authors: Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, and
Bing Liu
- Abstract要約: 既存の研究では、ドメインコーパスを使用してLMをドメインに適応させるために、さらに事前トレーニングを行うことで、ドメインのエンドタスク性能が向上することが示されている。
本稿では,未ラベルのドメインコーパスを連続してDAP訓練してこれらのドメインに適応させ,エンドタスク性能を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 11.59945701446951
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Language models (LMs) have been instrumental for the rapid advance of natural
language processing. This paper studies continual pre-training of LMs, in
particular, continual domain-adaptive pre-training (or continual DAP-training).
Existing research has shown that further pre-training an LM using a domain
corpus to adapt the LM to the domain can improve the end-task performance in
the domain. This paper proposes a novel method to continually DAP-train an LM
with a sequence of unlabeled domain corpora to adapt the LM to these domains to
improve their end-task performances. The key novelty of our method is a
soft-masking mechanism that directly controls the update to the LM. A novel
proxy is also proposed to preserve the general knowledge in the original LM.
Additionally, it contrasts the representations of the previously learned domain
knowledge (including the general knowledge in the pre-trained LM) and the
knowledge from the current full network to achieve knowledge integration. The
method not only overcomes catastrophic forgetting, but also achieves knowledge
transfer to improve end-task performances. Empirical evaluation demonstrates
the effectiveness of the proposed method.
- Abstract(参考訳): 言語モデル(LM)は、自然言語処理の急速な進歩に役立っている。
本稿では, LMの連続的事前訓練, 特に連続的ドメイン適応型事前訓練(あるいは連続的DAP訓練)について検討する。
既存の研究によると、ドメインコーパスを使ってドメインにlmを適応させるためにlmを事前トレーニングすることで、ドメインのエンドタスクパフォーマンスが向上する。
本稿では,未ラベルのドメインコーパスを連続してDAP訓練してこれらのドメインに適応させ,エンドタスク性能を向上させる手法を提案する。
本手法の重要な特徴は,LMの更新を直接制御するソフトマスキング機構である。
従来のLMにおける一般的な知識を維持するために、新しいプロキシも提案されている。
さらに、学習済みのドメイン知識(事前学習されたLMの一般的な知識を含む)の表現と、知識統合を達成するための現在の完全なネットワークからの知識とを対比する。
この方法は破滅的な忘れを克服するだけでなく、エンドタスクのパフォーマンスを改善するための知識伝達も達成する。
実験評価の結果,提案手法の有効性が示された。
関連論文リスト
- Mix-CPT: A Domain Adaptation Framework via Decoupling Knowledge Learning and Format Alignment [120.06538000214552]
汎用大規模言語モデル(LLM)を特殊なドメインに適応させることは、様々なデータ分散のために大きな課題となる。
そこで我々はMix-CPTと呼ばれるドメイン知識学習と汎用フォーマットアライメントを含む新しいドメイン適応フレームワークを提案する。
提案するMix-CPTフレームワークは,目標領域および一般領域におけるLCMのタスク解決能力を同時に向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T15:20:13Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - Evolving Domain Adaptation of Pretrained Language Models for Text
Classification [24.795214770636534]
進化するドメインシフト(EDS)の中で、時系列テキスト分類に事前訓練された言語モデル(PLM)を適用することは、スタンス検出のようなアプリケーションにおける精度を維持するために重要である。
本研究では, 自己学習, ドメイン・アドバイザリ・トレーニング, ドメイン・アダプティブ・プレトレーニングなど, 進化するドメイン適応(EDA)戦略の有効性を, 漸進的な自己学習手法に焦点をあてて評価する。
論文 参考訳(メタデータ) (2023-11-16T08:28:00Z) - Propagating Knowledge Updates to LMs Through Distillation [97.3628651636153]
文脈に基づくアプローチは、エンティティに関する知識を付与し、その知識を広めてより広範な推論を可能にすることができることを示す。
実験により,本手法は,微調整や他の勾配に基づく知識編集手法よりも,知識更新の伝播に有効であることが実証された。
論文 参考訳(メタデータ) (2023-06-15T17:39:50Z) - Adapting a Language Model While Preserving its General Knowledge [22.083108548675494]
ドメイン適応型事前訓練(または略してDAトレーニング)は、特定のドメインのラベルなしコーパスを使用して訓練済み汎用言語モデル(LM)を訓練することを目的としている。
既存のDAトレーニングメソッドは、LMのどの知識を保存すべきか、ドメインコーパスによって何が変更されるべきなのかを明確に定義していないため、何らかの意味で盲目である。
本稿では,既存の手法が最適以下であることを示し,LMにおける知識のより深い適応を行うための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-21T17:57:53Z) - On the Domain Adaptation and Generalization of Pretrained Language
Models: A Survey [15.533482481757353]
機械学習システムの観点から,ドメイン適応アプローチの分類法を提案する。
我々はこれらの手法を議論し、比較し、将来有望な研究方向性を提案する。
論文 参考訳(メタデータ) (2022-11-06T15:32:00Z) - Continual Training of Language Models for Few-Shot Learning [20.840674614655942]
大規模言語モデル(LM)の適用に関する最近の研究は、多くのNLPアプリケーションにおいて印象的な性能を実現している。
ラベルのないドメインコーパスを使用してLMを適応または後トレーニングすることで、ドメイン内のエンドタスクのパフォーマンスをさらに向上させることができる。
本稿では,未ラベル領域のコーパスを用いて,段階的にLMをポストトレーニングすることで,LMを継続的に拡張する問題を提案する。
結果として得られたシステムはCPT(Continual PostTraining)と呼ばれ、私たちの知る限り、最初の連続的なポストトレーニングシステムである。
論文 参考訳(メタデータ) (2022-10-11T15:43:58Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z) - Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。
LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。
我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-10-12T17:57:00Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。