論文の概要: Self-Evolution Learning for Discriminative Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2305.15275v1
- Date: Wed, 24 May 2023 16:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:29:11.110574
- Title: Self-Evolution Learning for Discriminative Language Model Pretraining
- Title(参考訳): 識別言語モデル事前学習のための自己進化学習
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao
- Abstract要約: 自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
- 参考スコア(独自算出の注目度): 103.57103957631067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling, widely used in discriminative language model (e.g.,
BERT) pretraining, commonly adopts a random masking strategy. However, random
masking does not consider the importance of the different words in the sentence
meaning, where some of them are more worthy to be predicted. Therefore, various
masking strategies (e.g., entity-level masking) are proposed, but most of them
require expensive prior knowledge and generally train from scratch without
reusing existing model weights. In this paper, we present Self-Evolution
learning (SE), a simple and effective token masking and learning method to
fully and wisely exploit the knowledge from data. SE focuses on learning the
informative yet under-explored tokens and adaptively regularizes the training
by introducing a novel Token-specific Label Smoothing approach. Experiments on
10 tasks show that our SE brings consistent and significant improvements
(+1.43~2.12 average scores) upon different PLMs. In-depth analyses demonstrate
that SE improves linguistic knowledge learning and generalization.
- Abstract(参考訳): 差別的言語モデル(例えば、bert)で広く使われているマスキング言語モデリングは、ランダムマスキング戦略を一般的に採用している。
しかし、ランダムマスキングは文の意味における異なる単語の重要性を考慮しない。
そのため、様々なマスキング戦略(例えばエンティティレベルのマスキング)が提案されているが、その多くは高価な事前知識を必要とし、一般的に既存のモデル重みを再利用せずにスクラッチからトレーニングする。
本稿では,データから知識を十分に活用するための,単純かつ効果的なトークンマスキングと学習方法である自己進化学習(SE)を提案する。
seはインフォメーションが未熟なトークンを学習することに集中し、新しいトークン固有のラベル平滑化アプローチを導入することで、トレーニングを適応的に規則化する。
10のタスクの実験では、SEは異なるPLMに対して一貫した、重要な改善(+1.43~2.12の平均スコア)をもたらす。
詳細な分析では、SEは言語知識の学習と一般化を改善している。
関連論文リスト
- Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Language Model Adaptation to Specialized Domains through Selective
Masking based on Genre and Topical Characteristics [4.9639158834745745]
本稿では、ジャンルや話題情報を活用した革新的なマスキング手法を導入し、言語モデルを専門ドメインにカスタマイズする。
本手法では,その重要度に基づいて単語を優先順位付けし,マスキング手順を導出するランキング処理を取り入れた。
法域内での継続事前学習を用いて行った実験は、英語のLegalGLUEベンチマークにおいて、我々のアプローチの有効性を裏付けている。
論文 参考訳(メタデータ) (2024-02-19T10:43:27Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Retrieval Oriented Masking Pre-training Language Model for Dense Passage
Retrieval [16.592276887533714]
Masked Language Modeling (MLM) は、事前学習プロセスの主要なサブタスクである。
従来のランダムマスキング戦略は、パス検索タスクに制限のある多数のトークンを選択する傾向にある。
本稿では,より重要なトークンがマスクアウトされる確率の高い検索指向マスキング(ROM)戦略を提案する。
論文 参考訳(メタデータ) (2022-10-27T02:43:48Z) - Probing Simile Knowledge from Pre-trained Language Models [16.411859515803098]
シミュレーション解釈(SI)とシミュレーション生成(SG)は、モデルが予測を生成するのに十分な世界知識を必要とするため、NLPにとって難しい課題である。
近年、PLMベースのアプローチがNLPのデファクトスタンダードになっている。
本稿では,PLM からの模擬知識を探索し,SI と SG のタスクを3次完備化の統一的な枠組みで初めて解く。
論文 参考訳(メタデータ) (2022-04-27T09:55:40Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Neural Mask Generator: Learning to Generate Adaptive Word Maskings for
Language Model Adaptation [63.195935452646815]
本稿では,自己教師付き事前学習のためのテキストのドメイン適応マスキングとタスク適応マスキングを自動生成する手法を提案する。
本稿では,マスキング政策を学習する新しい強化学習フレームワークを提案する。
我々はいくつかの質問応答とテキスト分類データセットに基づいてニューラルマスク生成器(NMG)を検証する。
論文 参考訳(メタデータ) (2020-10-06T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。