論文の概要: SinSpell: A Comprehensive Spelling Checker for Sinhala
- arxiv url: http://arxiv.org/abs/2107.02983v1
- Date: Wed, 7 Jul 2021 02:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 01:11:50.893045
- Title: SinSpell: A Comprehensive Spelling Checker for Sinhala
- Title(参考訳): SinSpell: Sinhalaの総合的なスペルチェッカー
- Authors: Upuli Liyanapathirana, Kaumini Gunasinghe, Gihan Dias
- Abstract要約: SinSpellはSinhala言語の包括的なスペルチェッカーである。
SinSpellはスペルエラーを識別し、修正を提案する。
また、明らかなエラーを自動的に修正するモジュールも含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have built SinSpell, a comprehensive spelling checker for the Sinhala
language which is spoken by over 16 million people, mainly in Sri Lanka.
However, until recently, Sinhala had no spelling checker with acceptable
coverage. Sinspell is still the only open source Sinhala spelling checker.
SinSpell identifies possible spelling errors and suggests corrections. It also
contains a module which auto-corrects evident errors. To maintain accuracy,
SinSpell was designed as a rule-based system based on Hunspell. A set of words
was compiled from several sources and verified. These were divided into
morphological classes, and the valid roots, suffixes and prefixes for each
class were identified, together with lists of irregular words and exceptions.
The errors in a corpus of Sinhala documents were analysed and commonly
misspelled words and types of common errors were identified. We found that the
most common errors were in vowel length and similar sounding letters. Errors
due to incorrect typing and encoding were also found. This analysis was used to
develop the suggestion generator and auto-corrector.
- Abstract(参考訳): SinSpellはSinhala言語のための包括的なスペルチェッカーで、主にスリランカで1600万人以上の人々が話している。
しかし、最近までシンハラは許容範囲の綴りチェッカーを持っていなかった。
Sinspellは現在も唯一のオープンソースのSinhalaスペルチェッカーである。
SinSpellはスペルエラーを識別し、修正を提案する。
また、明らかなエラーを自動修正するモジュールも含まれている。
精度を維持するため、SinSpellはHunspellをベースとしたルールベースのシステムとして設計された。
いくつかのソースから一連の単語がコンパイルされ、検証された。
これらは形態学クラスに分類され,各クラスに有効な根,接尾辞,接頭辞が同定され,不規則な単語や例外のリストが得られた。
シンハラ文書のコーパスの誤りは分析され、一般的に誤用される単語と一般的な誤りの種類が同定された。
最も一般的な誤りは母音の長さと類似の発声文字であった。
不正確な型付けとエンコーディングによるエラーも発見された。
この分析は提案生成器と自動修正器の開発に用いられた。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning [1.7205106391379026]
柔らかい綴りの誤りは、アラビア語話者や外国の学習者にも広く見られる。
我々は、一連のBiLSTMネットワークを開発し、訓練し、評価し、比較し、この種のエラーを修正します。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%の低い文字エラー率を達成する。
論文 参考訳(メタデータ) (2021-08-02T19:47:55Z) - Manually Annotated Spelling Error Corpus for Amharic [0.04915744683251149]
本稿では,エチオピアのAmharic, lingua Franceaに対して手書きの綴り誤りコーパスを提案する。
コーパスはスペルエラーの検出と修正の評価に使用されるように設計されている。
論文 参考訳(メタデータ) (2021-06-25T09:27:42Z) - Spell Correction for Azerbaijani Language using Deep Neural Networks [0.0]
本論文は,アゼルバイジャン語のスペル補正を開発するために,アテンション機構付きシーケンスモデルを用いている。
合計12000の誤りと正しい文対が訓練に使われ、このモデルは実世界の誤文1000語で試験される。
論文 参考訳(メタデータ) (2021-02-05T15:02:35Z) - Context-aware Stand-alone Neural Spelling Correction [11.643354740136953]
本稿では,事前学習した言語モデルを微調整することにより,ミススペルをシーケンスラベリングタスクとして共同で検出し,修正する,シンプルで強力なソリューションを提案する。
我々の解は、これまでの最先端の結果を12.8%の絶対F0.5スコアで上回っている。
論文 参考訳(メタデータ) (2020-11-12T20:34:49Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Synthetic Error Dataset Generation Mimicking Bengali Writing Pattern [0.0]
本稿では,正しい単語からベンガル語を自動的に生成するアルゴリズムを提案する。
分析の一環として、最もよく使われているベンガル語の一覧を作成した。
論文 参考訳(メタデータ) (2020-03-07T01:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。