論文の概要: Misspelling Correction with Pre-trained Contextual Language Model
- arxiv url: http://arxiv.org/abs/2101.03204v1
- Date: Fri, 8 Jan 2021 20:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:07:44.660678
- Title: Misspelling Correction with Pre-trained Contextual Language Model
- Title(参考訳): 事前学習した文脈言語モデルによるミススペル訂正
- Authors: Yifei Hu, Xiaonan Jing, Youlim Ko, Julia Taylor Rayz
- Abstract要約: BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spelling irregularities, known now as spelling mistakes, have been found for
several centuries. As humans, we are able to understand most of the misspelled
words based on their location in the sentence, perceived pronunciation, and
context. Unlike humans, computer systems do not possess the convenient auto
complete functionality of which human brains are capable. While many programs
provide spelling correction functionality, many systems do not take context
into account. Moreover, Artificial Intelligence systems function in the way
they are trained on. With many current Natural Language Processing (NLP)
systems trained on grammatically correct text data, many are vulnerable against
adversarial examples, yet correctly spelled text processing is crucial for
learning. In this paper, we investigate how spelling errors can be corrected in
context, with a pre-trained language model BERT. We present two experiments,
based on BERT and the edit distance algorithm, for ranking and selecting
candidate corrections. The results of our experiments demonstrated that when
combined properly, contextual word embeddings of BERT and edit distance are
capable of effectively correcting spelling errors.
- Abstract(参考訳): 綴りミスとして知られる散文の不規則さは、数世紀にわたって見つかっている。
人間として、文中のその位置、知覚された発音、文脈に基づいて、誤解された単語のほとんどを理解できます。
人間とは異なり、コンピュータシステムは人間の脳が使える便利なオートコンプリート機能を持っていない。
多くのプログラムはスペル修正機能を提供しているが、多くのシステムは文脈を考慮していない。
さらに、人工知能システムは訓練のやり方で機能する。
文法的に正しいテキストデータに基づいて訓練された現在の自然言語処理(NLP)システムの多くは、敵対的な例に弱いが、正しく綴られたテキスト処理は学習に不可欠である。
本稿では,事前学習した言語モデルBERTを用いて,スペルエラーの文脈修正について検討する。
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補修正のランク付けと選択を行う。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることがわかった。
関連論文リスト
- A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。
本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文 参考訳(メタデータ) (2024-07-24T16:07:11Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Proposal of Automatic Error Correction in Text [0.0]
電子テキストにおけるオートグラフィエラーの自動認識と修正の応用を示す。
この提案は、スペイン語の音声テキスト分類、単語類似性、単語辞書、統計測度、形態素解析、n-gramsに基づく言語モデルの一部を基礎としている。
論文 参考訳(メタデータ) (2021-09-24T17:17:56Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - Spelling Error Correction with Soft-Masked BERT [11.122964733563117]
タスクの最先端方法は、BERTに基づいて、文の各位置で修正する候補のリストから文字を選択する。
BERTは各位置にエラーがあるかどうかを検出するのに十分な能力を持っていないため、この手法の精度は準最適である。
本稿では,エラー検出のためのネットワークと,BERTに基づく誤り訂正のためのネットワークからなる,上記の問題に対処する新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-15T09:02:38Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。