論文の概要: TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning
- arxiv url: http://arxiv.org/abs/2111.04198v2
- Date: Tue, 9 Nov 2021 20:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 13:10:27.659499
- Title: TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning
- Title(参考訳): TaCL: Token-Aware Contrastive Learning によるBERT事前学習の改善
- Authors: Yixuan Su and Fangyu Liu and Zaiqiao Meng and Lei Shu and Ehsan
Shareghi and Nigel Collier
- Abstract要約: Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。
TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
- 参考スコア(独自算出の注目度): 19.682704309037653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked language models (MLMs) such as BERT and RoBERTa have revolutionized
the field of Natural Language Understanding in the past few years. However,
existing pre-trained MLMs often output an anisotropic distribution of token
representations that occupies a narrow subset of the entire representation
space. Such token representations are not ideal, especially for tasks that
demand discriminative semantic meanings of distinct tokens. In this work, we
propose TaCL (Token-aware Contrastive Learning), a novel continual pre-training
approach that encourages BERT to learn an isotropic and discriminative
distribution of token representations. TaCL is fully unsupervised and requires
no additional data. We extensively test our approach on a wide range of English
and Chinese benchmarks. The results show that TaCL brings consistent and
notable improvements over the original BERT model. Furthermore, we conduct
detailed analysis to reveal the merits and inner-workings of our approach.
- Abstract(参考訳): BERTやRoBERTaのような仮面言語モデル(MLM)は、ここ数年で自然言語理解の分野に革命をもたらした。
しかし、既存の事前訓練されたmlmsは、しばしば表現空間全体の狭い部分集合を占めるトークン表現の異方性分布を出力する。
このようなトークン表現は、特に異なるトークンの識別意味の意味を要求されるタスクにとって理想的ではない。
本研究では,トークン表現の等方的,差別的な分布をBERTが学習することを奨励する,新たな事前学習手法であるTaCL(Token-aware Contrastive Learning)を提案する。
TaCLは完全に教師なしで、追加のデータを必要としない。
我々は、幅広い英語と中国語のベンチマークで我々のアプローチを広範囲にテストした。
その結果、TaCLはBERTモデルよりも一貫性があり、注目すべき改善をもたらすことがわかった。
さらに,このアプローチのメリットと内部動作を明らかにするために,詳細な分析を行う。
関連論文リスト
- mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization [13.082435183692393]
AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。
英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。
CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2020-08-27T00:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。