論文の概要: Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling
- arxiv url: http://arxiv.org/abs/2109.01819v1
- Date: Sat, 4 Sep 2021 08:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 17:04:37.076209
- Title: Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling
- Title(参考訳): マスク付き言語モデリングのイライラする単純事前学習
- Authors: Atsuki Yamaguchi, George Chrysostomou, Katerina Margatina and Nikolaos
Aletras
- Abstract要約: Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
- 参考スコア(独自算出の注目度): 10.732163031244651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling (MLM), a self-supervised pretraining objective, is
widely used in natural language processing for learning text representations.
MLM trains a model to predict a random sample of input tokens that have been
replaced by a [MASK] placeholder in a multi-class setting over the entire
vocabulary. When pretraining, it is common to use alongside MLM other auxiliary
objectives on the token or sequence level to improve downstream performance
(e.g. next sentence prediction). However, no previous work so far has attempted
in examining whether other simpler linguistically intuitive or not objectives
can be used standalone as main pretraining objectives. In this paper, we
explore five simple pretraining objectives based on token-level classification
tasks as replacements of MLM. Empirical results on GLUE and SQuAD show that our
proposed methods achieve comparable or better performance to MLM using a
BERT-BASE architecture. We further validate our methods using smaller models,
showing that pretraining a model with 41% of the BERT-BASE's parameters,
BERT-MEDIUM results in only a 1% drop in GLUE scores with our best objective.
- Abstract(参考訳): Masked Language Modeling (MLM) は、自然言語処理においてテキスト表現の学習に広く利用されている。
MLMは、[MASK]プレースホルダーに置き換えられた入力トークンのランダムなサンプルを、語彙全体のマルチクラス設定で予測するためにモデルを訓練する。
事前トレーニングでは、MLM以外のトークンやシーケンスレベルの補助目的と併用して、下流のパフォーマンスを改善することが一般的である(例)。
次の文の予測)
しかし、これまでの研究では、他の単純な言語学的直感的目的が、メインの事前学習目的としてスタンドアロンで使用できるかどうかを検証できていない。
本稿では,MLMの代替としてトークンレベルの分類タスクに基づく5つの簡単な事前学習目標について検討する。
GLUE と SQuAD の実証実験の結果,提案手法はBERT-BASE アーキテクチャを用いて MLM に匹敵する性能を示した。
さらに,より小さなモデルを用いて,BERT-BASEのパラメータの41%の事前学習を行うことで,GLUEスコアの1%の低下しか得られないことを示す。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Structural Self-Supervised Objectives for Transformers [3.018656336329545]
この論文は、教師なし生データを用いて自然言語モデルの事前学習を改善することに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に対する3つの事前学習目標について紹介する。
第2部では、下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:30:45Z) - Automating Code-Related Tasks Through Transformers: The Impact of
Pre-training [15.129062963782005]
コード関連タスクの自動化において,事前学習対象が変圧器の性能に及ぼす影響について検討する。
i)ソフトウェア工学(SE)の文献に通常採用される汎用的な事前学習目標と,(ii)特定のコード関連タスクに適した事前学習目標の両方を用いて,32の変圧器を事前訓練する。
論文 参考訳(メタデータ) (2023-02-08T13:37:33Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。