論文の概要: Weighted Sampling for Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2302.14225v1
- Date: Tue, 28 Feb 2023 01:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:32:20.775285
- Title: Weighted Sampling for Masked Language Modeling
- Title(参考訳): マスク言語モデリングのための重み付きサンプリング
- Authors: Linhan Zhang, Qian Chen, Wen Wang, Chong Deng, Xin Cao, Kongzhang Hao,
Yuxin Jiang, Wei Wang
- Abstract要約: トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
- 参考スコア(独自算出の注目度): 12.25238763907731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Language Modeling (MLM) is widely used to pretrain language models.
The standard random masking strategy in MLM causes the pre-trained language
models (PLMs) to be biased toward high-frequency tokens. Representation
learning of rare tokens is poor and PLMs have limited performance on downstream
tasks. To alleviate this frequency bias issue, we propose two simple and
effective Weighted Sampling strategies for masking tokens based on the token
frequency and training loss. We apply these two strategies to BERT and obtain
Weighted-Sampled BERT (WSBERT). Experiments on the Semantic Textual Similarity
benchmark (STS) show that WSBERT significantly improves sentence embeddings
over BERT. Combining WSBERT with calibration methods and prompt learning
further improves sentence embeddings. We also investigate fine-tuning WSBERT on
the GLUE benchmark and show that Weighted Sampling also improves the transfer
learning capability of the backbone PLM. We further analyze and provide
insights into how WSBERT improves token embeddings.
- Abstract(参考訳): masked language modeling (mlm) は、言語モデルの事前学習に広く使われている。
mlmの標準ランダムマスキング戦略は、事前訓練された言語モデル(plm)を高周波トークンに偏らせる。
稀なトークンの表現学習は貧弱であり、plmは下流タスクのパフォーマンスに制限がある。
この周波数バイアス問題を緩和するために,トークンの頻度とトレーニング損失に基づくマスキングトークンの簡易かつ効果的な重み付きサンプリング戦略を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
セマンティックテキスト類似性ベンチマーク(STS)の実験では、WSBERTはBERTに対する文の埋め込みを大幅に改善している。
WSBERTと校正手法を組み合わせることで、文の埋め込みをさらに改善する。
また、GLUEベンチマークの微調整WSBERTについて検討し、重み付きサンプリングにより、バックボーンPLMの転写学習能力も向上することを示した。
さらに、WSBERTがトークンの埋め込みをどのように改善するかを分析し、洞察を提供する。
関連論文リスト
- Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Mask-guided BERT for Few Shot Text Classification [12.361032727044547]
Mask-BERTは、BERTベースのアーキテクチャが数発の学習に対処するための、シンプルでモジュール化されたフレームワークである。
中心となる考え方は、テキスト入力にマスクを選択的に適用し、無関係な情報をフィルタリングすることであり、それはモデルを差別的トークンにフォーカスするよう誘導する。
パブリックドメインベンチマークデータセットの実験結果は、Mask-BERTの有効性を示す。
論文 参考訳(メタデータ) (2023-02-21T05:24:00Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives [0.0]
BERTは、大きな言語モデルで伝達学習を可能にすることで、NLP分野に革命をもたらした。
本稿では、BERT出力層が提供する異なる埋め込みと、多言語モデルの代わりに言語固有の使用について、よりよく対処する方法について研究する。
論文 参考訳(メタデータ) (2022-01-10T15:05:05Z) - TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。
TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文 参考訳(メタデータ) (2021-11-07T22:54:23Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。