論文の概要: NeuSpell: A Neural Spelling Correction Toolkit
- arxiv url: http://arxiv.org/abs/2010.11085v1
- Date: Wed, 21 Oct 2020 15:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:59:09.762140
- Title: NeuSpell: A Neural Spelling Correction Toolkit
- Title(参考訳): NeuSpell: ニューラルネットワークの補正ツールキット
- Authors: Sai Muralidhar Jayanthi, Danish Pruthi, Graham Neubig
- Abstract要約: NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 88.79419580807519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce NeuSpell, an open-source toolkit for spelling correction in
English. Our toolkit comprises ten different models, and benchmarks them on
naturally occurring misspellings from multiple sources. We find that many
systems do not adequately leverage the context around the misspelt token. To
remedy this, (i) we train neural models using spelling errors in context,
synthetically constructed by reverse engineering isolated misspellings; and
(ii) use contextual representations. By training on our synthetic examples,
correction rates improve by 9% (absolute) compared to the case when models are
trained on randomly sampled character perturbations. Using richer contextual
representations boosts the correction rate by another 3%. Our toolkit enables
practitioners to use our proposed and existing spelling correction systems,
both via a unified command line, as well as a web interface. Among many
potential applications, we demonstrate the utility of our spell-checkers in
combating adversarial misspellings. The toolkit can be accessed at
neuspell.github.io. Code and pretrained models are available at
http://github.com/neuspell/neuspell.
- Abstract(参考訳): 英語の綴り訂正のためのオープンソースツールキットneuspellを紹介する。
我々のツールキットは10種類の異なるモデルで構成され、複数のソースから自然に発生するミススペルをベンチマークする。
多くのシステムはミスペルトトークンのコンテキストを適切に利用していない。
これを治療する。
一 逆エンジニアリング分離ミススペルによって合成された文脈におけるスペルエラーを用いてニューラルモデルを訓練すること。
(ii)文脈表現を用いる。
実例を学習することにより,ランダムなサンプルキャラクタ摂動をモデルとした場合と比較して,補正率が9%向上する(絶対値)。
よりリッチな文脈表現を使用することで、補正率は3%向上する。
当社のツールキットでは,提案および既存の綴り補正システムを統一コマンドラインとwebインターフェースの両方を通じて使用することが可能です。
多くの潜在的な応用の中で、敵のミススペルと戦うためのスペルチェッカーの有用性を実証する。
ツールキットはneuspell.github.ioでアクセスできる。
コードと事前トレーニングされたモデルはhttp://github.com/neuspell/neuspellで入手できる。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - A Methodology for Generative Spelling Correction via Natural Spelling
Errors Emulation across Multiple Domains and Languages [39.75847219395984]
本稿では,英語とロシア語でテストした生成スペル補正法について述べる。
本研究では,これらの誤りを正しい文でエミュレートして生成モデルの事前訓練手順を効果的に強化する方法について検討する。
SAGE(Spell check via Augmentation and Generative Distribution Emulation)を紹介します。
論文 参考訳(メタデータ) (2023-08-18T10:07:28Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - Spelling Correction with Denoising Transformer [0.0]
本稿では,検索クエリや個々の単語など,短い入力文字列に対してスペル補正を行う手法を提案する。
その核となるのは、人間が示すエラーパターンに密接に従う人工的タイプミスを生成する手順である。
この手順は、トランスアーキテクチャに基づく生産スペル補正モデルのトレーニングに使用されます。
論文 参考訳(メタデータ) (2021-05-12T21:35:18Z) - Misspelling Correction with Pre-trained Contextual Language Model [0.0]
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
論文 参考訳(メタデータ) (2021-01-08T20:11:01Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。