論文の概要: Continual Domain-Tuning for Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2004.02288v2
- Date: Fri, 19 Mar 2021 14:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:08:41.161060
- Title: Continual Domain-Tuning for Pretrained Language Models
- Title(参考訳): 事前学習言語モデルのための連続的ドメインチューニング
- Authors: Subendhu Rongali, Abhyuday Jagannatha, Bhanu Pratap Singh Rawat, and
Hong Yu
- Abstract要約: シンプルなドメインチューニング(SDT)はBioBERT, SciBERT, ClinicalBERTといったドメインチューニングモデルの作成に広く利用されている。
対象ドメインの事前学習フェーズにおいて、LMモデルは、そのソースドメインから学んだパターンを破滅的に忘れてしまう可能性がある。
SDTに対する継続学習(CL)に基づく代替手法を提案する。
- 参考スコア(独自算出の注目度): 8.080145221992641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LM) such as BERT, DistilBERT, and RoBERTa can be
tuned for different domains (domain-tuning) by continuing the pre-training
phase on a new target domain corpus. This simple domain tuning (SDT) technique
has been widely used to create domain-tuned models such as BioBERT, SciBERT and
ClinicalBERT. However, during the pretraining phase on the target domain, the
LM models may catastrophically forget the patterns learned from their source
domain. In this work, we study the effects of catastrophic forgetting on
domain-tuned LM models and investigate methods that mitigate its negative
effects. We propose continual learning (CL) based alternatives for SDT, that
aim to reduce catastrophic forgetting. We show that these methods may increase
the performance of LM models on downstream target domain tasks. Additionally,
we also show that constraining the LM model from forgetting the source domain
leads to downstream task models that are more robust to domain shifts. We
analyze the computational cost of using our proposed CL methods and provide
recommendations for computationally lightweight and effective CL domain-tuning
procedures.
- Abstract(参考訳): BERT、DistilBERT、RoBERTaといった事前学習言語モデル(LM)は、新しいターゲットドメインコーパスで事前学習フェーズを継続することにより、異なるドメイン(ドメインチューニング)に対してチューニングすることができる。
このシンプルなドメインチューニング(SDT)技術は、BioBERT、SciBERT、CeriorBERTといったドメインチューニングモデルを作成するために広く使われている。
しかし、ターゲットドメインの事前学習フェーズの間、lmモデルは、ソースドメインから学んだパターンを壊滅的に忘れてしまう可能性がある。
本研究では,ドメイン調整lmモデルに対する破滅的忘れ方の影響について検討し,その悪影響を緩和する手法について検討する。
本研究では,sdtに対する継続学習(cl)に基づく代替手法を提案する。
これらの手法は、下流のターゲット領域タスクにおけるLMモデルの性能を向上させる可能性がある。
さらに、ソースドメインを忘れないようにlmモデルを制約することは、ドメインシフトに対してより堅牢なダウンストリームタスクモデルにつながることも示します。
提案手法を用いた計算コストを解析し,計算量的に軽量かつ効果的なclドメインチューニング手順を推奨する。
関連論文リスト
- Continual Domain Adaptation through Pruning-aided Domain-specific Weight
Modulation [37.3981662593942]
継続学習(CL)の実践的設定において、教師なしドメイン適応(UDA)に対処する手法を開発する。
目標は、ドメイン固有の知識を保持しながら、ドメインを継続的に変更するモデルを更新して、過去のドメインの破滅的な忘れを防止することです。
論文 参考訳(メタデータ) (2023-04-15T13:44:58Z) - Decorate the Newcomers: Visual Domain Prompt for Continual Test Time
Adaptation [14.473807945791132]
Continual Test-Time Adaptation (CTTA) は、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインを継続的に変更することを目的としている。
そこで本論文では,NLPにおける素早い学習によって動機づけられた画像レベルの視覚領域プロンプトを,ソースモデルパラメータを凍結させながら学習することを提案する。
論文 参考訳(メタデータ) (2022-12-08T08:56:02Z) - Normalization Perturbation: A Simple Domain Generalization Method for
Real-World Domain Shifts [133.99270341855728]
実世界のドメインスタイルは環境の変化やセンサノイズによって大きく変化する可能性がある。
深層モデルはトレーニングドメインスタイルしか知らない。
このドメインスタイルのオーバーフィット問題を解決するために,正規化摂動を提案する。
論文 参考訳(メタデータ) (2022-11-08T17:36:49Z) - Variational Model Perturbation for Source-Free Domain Adaptation [64.98560348412518]
確率的枠組みにおける変分ベイズ推定によるモデルパラメータの摂動を導入する。
本研究では,ベイズニューラルネットワークの学習と理論的関連性を実証し,目的領域に対する摂動モデルの一般化可能性を示す。
論文 参考訳(メタデータ) (2022-10-19T08:41:19Z) - Neural Supervised Domain Adaptation by Augmenting Pre-trained Models
with Random Units [14.183224769428843]
自然言語処理(NLP)におけるニューラルトランスファーラーニング(TL)の展開
本稿では,その効率性にも拘わらず,主な限界に悩まされている解釈手法について述べる。
本稿では,正規化,重み付け,ランダムに初期化を施した事前学習モデルの強化について提案する。
論文 参考訳(メタデータ) (2021-06-09T09:29:11Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Neuron Linear Transformation: Modeling the Domain Shift for Crowd
Counting [34.560447389853614]
クロスドメイン・クラウド・カウント(CDCC)は、公共安全の重要性からホットな話題である。
領域シフトを学習するために、領域因子とバイアス重みを利用するニューロン線形変換(NLT)法を提案する。
6つの実世界のデータセットに関する大規模な実験と分析により、NLTが最高性能を達成することを確認した。
論文 参考訳(メタデータ) (2020-04-05T09:15:47Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。