論文の概要: Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change
- arxiv url: http://arxiv.org/abs/2210.17127v1
- Date: Mon, 31 Oct 2022 08:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:07:27.464656
- Title: Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change
- Title(参考訳): 語彙意味変化を考慮した事前学習言語モデルの時間的一般化
- Authors: Zhaochen Su, Zecheng Tang, Xinyan Guan, Juntao Li, Lijun Wu, Min Zhang
- Abstract要約: 近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
- 参考スコア(独自算出の注目度): 28.106524698188675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has revealed that neural language models at scale suffer from
poor temporal generalization capability, i.e., the language model pre-trained
on static data from past years performs worse over time on emerging data.
Existing methods mainly perform continual training to mitigate such a
misalignment. While effective to some extent but is far from being addressed on
both the language modeling and downstream tasks. In this paper, we empirically
observe that temporal generalization is closely affiliated with lexical
semantic change, which is one of the essential phenomena of natural languages.
Based on this observation, we propose a simple yet effective lexical-level
masking strategy to post-train a converged language model. Experiments on two
pre-trained language models, two different classification tasks, and four
benchmark datasets demonstrate the effectiveness of our proposed method over
existing temporal adaptation methods, i.e., continual training with new data.
Our code is available at \url{https://github.com/zhaochen0110/LMLM}.
- Abstract(参考訳): 近年の研究では、大規模なニューラルネットワークモデルは時間的一般化能力の不足、すなわち過去数年間の静的データで事前訓練された言語モデルは、出現するデータに対して時間とともに悪化することが明らかになっている。
既存の方法は主に、このような不平を和らげるために継続的な訓練を行う。
ある程度有効ではあるが、言語モデリングとダウンストリームタスクの両方で対処されるには程遠い。
本稿では,自然言語における本質的な現象の一つである語彙的意味変化と時間的一般化が密接な関係にあることを実証的に観察する。
この観察に基づいて,収束した言語モデルの訓練後において,単純かつ効果的な語彙レベルのマスキング戦略を提案する。
2つの事前学習された言語モデル、異なる2つの分類タスク、および4つのベンチマークデータセットの実験は、既存の時間適応法、すなわち新しいデータによる継続的なトレーニングよりも、提案手法の有効性を実証する。
私たちのコードは \url{https://github.com/zhaochen0110/LMLM} で利用可能です。
関連論文リスト
- Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文 参考訳(メタデータ) (2021-10-16T09:59:33Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。