論文の概要: "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2203.00286v2
- Date: Wed, 2 Mar 2022 12:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 11:48:29.990157
- Title: "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction
- Title(参考訳): 「中国語のBERTよりずっといい言葉」:中国語の文法的誤りの訂正をめざして
- Authors: Yong Dai, Linyang Li, Cong Zhou, Zhangyin Feng, Enbo Zhao, Xipeng Qiu,
Piji Li, Duyu Tang
- Abstract要約: 我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
- 参考スコア(独自算出の注目度): 58.40808660657153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole word masking (WWM), which masks all subwords corresponding to a word at
once, makes a better English BERT model. For the Chinese language, however,
there is no subword because each token is an atomic character. The meaning of a
word in Chinese is different in that a word is a compositional unit consisting
of multiple characters. Such difference motivates us to investigate whether WWM
leads to better context understanding ability for Chinese BERT. To achieve
this, we introduce two probing tasks related to grammatical error correction
and ask pretrained models to revise or insert tokens in a masked language
modeling manner. We construct a dataset including labels for 19,075 tokens in
10,448 sentences. We train three Chinese BERT models with standard
character-level masking (CLM), WWM, and a combination of CLM and WWM,
respectively. Our major findings are as follows: First, when one character
needs to be inserted or replaced, the model trained with CLM performs the best.
Second, when more than one character needs to be handled, WWM is the key to
better performance. Finally, when being fine-tuned on sentence-level downstream
tasks, models trained with different masking strategies perform comparably.
- Abstract(参考訳): 単語に対応するすべてのサブワードを一度にマスキングするWWM(Whole Word masking)は、英語のBERTモデルを改善する。
しかし中国語では、各トークンが原子的文字であるため、サブワードは存在しない。
中国語の単語の意味は、単語が複数の文字からなる構成単位であるという点で異なる。
このような違いは、WWMが中国のBERTにより良い文脈理解能力をもたらすかどうかを調査する動機となっている。
これを実現するために,文法的誤り訂正に関連する2つのプロビングタスクを導入し,事前学習したモデルに対して,マスキング言語モデリング手法によるトークンの修正や挿入を依頼する。
10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(clm)、wwm、およびclmとwwmの組み合わせを用いた3つの中国語bertモデルを訓練した。
第一に、あるキャラクタを挿入または置き換える必要がある場合、CLMでトレーニングされたモデルが最もよく機能する。
第二に、複数の文字を扱う必要がある場合、WWMがパフォーマンス向上の鍵となる。
最後に、文レベルの下流タスクで微調整されると、異なるマスキング戦略でトレーニングされたモデルが比較可能に実行される。
関連論文リスト
- Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-20T06:20:03Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab
Pretraining [5.503321733964237]
まず,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語BERTの語彙を形成する新しい手法であるemphseg_tokを提案する。
実験の結果,emphseg_tok は中国語 PLM の文レベルタスクの性能を向上するだけでなく,効率も向上することが示された。
論文 参考訳(メタデータ) (2020-11-17T10:15:36Z) - AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization [13.082435183692393]
AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。
英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。
CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2020-08-27T00:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。