論文の概要: Pretraining Chinese BERT for Detecting Word Insertion and Deletion
Errors
- arxiv url: http://arxiv.org/abs/2204.12052v1
- Date: Tue, 26 Apr 2022 03:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:02:09.167223
- Title: Pretraining Chinese BERT for Detecting Word Insertion and Deletion
Errors
- Title(参考訳): 単語挿入・削除誤り検出のための事前学習中国語bert
- Authors: Cong Zhou, Yong Dai, Duyu Tang, Enbo Zhao, Zhangyin Feng, Li Kuang,
and Shuming Shi
- Abstract要約: 単語挿入と削除のための簡素で効果的な中国語事前訓練モデルを提案する。
我々は、単語の非存在を予測する特別なトークンtextt[null]を導入することで、これを実現する。
提案手法は,単語挿入時のF1スコアを24.1%から78.1%に,単語削除時の26.5%から68.5%に改善する。
- 参考スコア(独自算出の注目度): 26.814027512303824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese BERT models achieve remarkable progress in dealing with grammatical
errors of word substitution. However, they fail to handle word insertion and
deletion because BERT assumes the existence of a word at each position. To
address this, we present a simple and effective Chinese pretrained model. The
basic idea is to enable the model to determine whether a word exists at a
particular position. We achieve this by introducing a special token
\texttt{[null]}, the prediction of which stands for the non-existence of a
word. In the training stage, we design pretraining tasks such that the model
learns to predict \texttt{[null]} and real words jointly given the surrounding
context. In the inference stage, the model readily detects whether a word
should be inserted or deleted with the standard masked language modeling
function. We further create an evaluation dataset to foster research on word
insertion and deletion. It includes human-annotated corrections for 7,726
erroneous sentences. Results show that existing Chinese BERT performs poorly on
detecting insertion and deletion errors. Our approach significantly improves
the F1 scores from 24.1\% to 78.1\% for word insertion and from 26.5\% to
68.5\% for word deletion, respectively.
- Abstract(参考訳): 中国語 BERT モデルは,単語置換の文法的誤りに対処する上で,顕著な進歩を達成している。
しかし、BERTは各位置に単語が存在すると仮定するため、単語挿入と削除の処理に失敗する。
これを解決するために、簡素で効果的な中国語事前学習モデルを提案する。
基本的な考え方は、ある単語が特定の位置に存在するかどうかをモデルが決定できるようにすることである。
我々は、単語の非存在を表す特別なトークン \texttt{[null]} を導入することで、これを実現する。
トレーニング段階では、モデルが周囲の文脈で同時に \texttt{[null]} と実単語を予測するように事前学習タスクを設計する。
推論段階では、標準的なマスキング言語モデリング機能で単語を挿入または削除すべきかどうかを容易に検出する。
さらに,単語挿入と削除の研究を促進するための評価データセットを作成する。
7,726文の人間の注釈による訂正を含む。
その結果,既存の中国のBERTは挿入誤りや削除誤りを検出できないことがわかった。
提案手法は,単語挿入時のF1スコアを24.1\%から78.1\%に,単語削除時の26.5\%から68.5\%に改善する。
関連論文リスト
- Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Spelling Error Correction with Soft-Masked BERT [11.122964733563117]
タスクの最先端方法は、BERTに基づいて、文の各位置で修正する候補のリストから文字を選択する。
BERTは各位置にエラーがあるかどうかを検出するのに十分な能力を持っていないため、この手法の精度は準最適である。
本稿では,エラー検出のためのネットワークと,BERTに基づく誤り訂正のためのネットワークからなる,上記の問題に対処する新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-15T09:02:38Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。