論文の概要: Spelling Error Correction with Soft-Masked BERT
- arxiv url: http://arxiv.org/abs/2005.07421v1
- Date: Fri, 15 May 2020 09:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:25:02.676497
- Title: Spelling Error Correction with Soft-Masked BERT
- Title(参考訳): ソフトマスクBERTによるスペル誤り補正
- Authors: Shaohua Zhang, Haoran Huang, Jicong Liu and Hang Li
- Abstract要約: タスクの最先端方法は、BERTに基づいて、文の各位置で修正する候補のリストから文字を選択する。
BERTは各位置にエラーがあるかどうかを検出するのに十分な能力を持っていないため、この手法の精度は準最適である。
本稿では,エラー検出のためのネットワークと,BERTに基づく誤り訂正のためのネットワークからなる,上記の問題に対処する新しいニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 11.122964733563117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spelling error correction is an important yet challenging task because a
satisfactory solution of it essentially needs human-level language
understanding ability. Without loss of generality we consider Chinese spelling
error correction (CSC) in this paper. A state-of-the-art method for the task
selects a character from a list of candidates for correction (including
non-correction) at each position of the sentence on the basis of BERT, the
language representation model. The accuracy of the method can be sub-optimal,
however, because BERT does not have sufficient capability to detect whether
there is an error at each position, apparently due to the way of pre-training
it using mask language modeling. In this work, we propose a novel neural
architecture to address the aforementioned issue, which consists of a network
for error detection and a network for error correction based on BERT, with the
former being connected to the latter with what we call soft-masking technique.
Our method of using `Soft-Masked BERT' is general, and it may be employed in
other language detection-correction problems. Experimental results on two
datasets demonstrate that the performance of our proposed method is
significantly better than the baselines including the one solely based on BERT.
- Abstract(参考訳): 綴り誤りの修正は、人間レベルの言語理解能力を必要とするため、重要かつ困難なタスクである。
本論文では, 一般性を欠くことなく中国語スペル誤り訂正(CSC)を考察する。
タスクの最先端方法は、言語表現モデルであるBERTに基づいて、文の各位置における修正候補のリスト(非補正を含む)から文字を選択する。
しかし、BERTはマスク言語モデリングを用いて事前学習する方法により、各位置にエラーがあるかどうかを検知する十分な能力を持っていないため、この手法の精度は準最適である。
本研究では,エラー検出のためのネットワークとBERTに基づくエラー訂正のためのネットワークから構成される,上記の問題に対処するニューラルアーキテクチャを提案する。
本手法は,「ソフトメイクBERT」を用いる方法が一般的であり,他の言語検出補正問題にも適用できる。
2つのデータセットに対する実験結果から,提案手法の性能はBERTのみに基づくものを含め,ベースラインよりも有意に優れていることが示された。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。
本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文 参考訳(メタデータ) (2024-07-24T16:07:11Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Exploring the Capacity of a Large-scale Masked Language Model to
Recognize Grammatical Errors [3.55517579369797]
トレーニングデータの5~10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。
また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
論文 参考訳(メタデータ) (2021-08-27T10:37:14Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Misspelling Correction with Pre-trained Contextual Language Model [0.0]
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
論文 参考訳(メタデータ) (2021-01-08T20:11:01Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。