論文の概要: Neural spell-checker: Beyond words with synthetic data generation
- arxiv url: http://arxiv.org/abs/2410.23514v1
- Date: Wed, 30 Oct 2024 23:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:18.539206
- Title: Neural spell-checker: Beyond words with synthetic data generation
- Title(参考訳): ニューラルスペルチェッカー:合成データ生成による単語を超えて
- Authors: Matej Klemen, Martin Božič, Špela Arhar Holdt, Marko Robnik-Šikonja,
- Abstract要約: スペルチェックは、テキスト中のミススペルされた単語を識別することでコミュニケーションを強化する貴重なツールである。
近年のディープラーニングの改良により、従来のスペルチェッカーを新たな機能で改善する新たな機会が開けている。
我々は2つの新しいスペルチェッカーを提示、比較し、それらを合成、学習、より一般的なSloveneデータセット上で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Spell-checkers are valuable tools that enhance communication by identifying misspelled words in written texts. Recent improvements in deep learning, and in particular in large language models, have opened new opportunities to improve traditional spell-checkers with new functionalities that not only assess spelling correctness but also the suitability of a word for a given context. In our work, we present and compare two new spell-checkers and evaluate them on synthetic, learner, and more general-domain Slovene datasets. The first spell-checker is a traditional, fast, word-based approach, based on a morphological lexicon with a significantly larger word list compared to existing spell-checkers. The second approach uses a language model trained on a large corpus with synthetically inserted errors. We present the training data construction strategies, which turn out to be a crucial component of neural spell-checkers. Further, the proposed neural model significantly outperforms all existing spell-checkers for Slovene in both precision and recall.
- Abstract(参考訳): スペルチェックは、テキスト中のミススペルされた単語を識別することでコミュニケーションを強化する貴重なツールである。
近年のディープラーニング,特に大規模言語モデルの改良は,スペルの正確性だけでなく,与えられた文脈に対する単語の適合性も評価する,従来のスペルチェッカーを改良する新たな機会を開いた。
本研究では,2つの新しいスペルチェッカーを提示,比較し,合成,学習,より汎用的なSloveneデータセット上で評価する。
最初のスペルチェッカーは従来の高速な単語ベースのアプローチであり、既存のスペルチェッカーに比べてはるかに大きな単語リストを持つ形態的語彙に基づいている。
第二のアプローチは、合成的に挿入されたエラーを伴う大きなコーパスでトレーニングされた言語モデルを使用する。
本稿では,神経スペルチェッカーの重要な構成要素であるトレーニングデータ構築戦略について述べる。
さらに、提案したニューラルネットワークは、スロヴェニアの既存のスペルチェッカーを精度とリコールの両方で大幅に上回っている。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Automatic Spell Checker and Correction for Under-represented Spoken
Languages: Case Study on Wolof [9.79241237464453]
本稿では,アフリカにおける低表現言語であるWolofのためのスペルチェッカーと修正ツールを提案する。
提案するスペルチェッカーは, トリエデータ構造, 動的プログラミング, 重み付きレベンシュテイン距離の組み合わせを利用して, ミススペル語の提案を生成する。
Wolofのデータは限られていたが、スペルチェッカーのパフォーマンスは予測精度98.31%、提案精度93.33%であった。
論文 参考訳(メタデータ) (2023-05-22T04:03:20Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Augmenting semantic lexicons using word embeddings and transfer learning [1.101002667958165]
本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。
評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかである。
論文 参考訳(メタデータ) (2021-09-18T20:59:52Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。