論文の概要: Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning
- arxiv url: http://arxiv.org/abs/2108.01141v1
- Date: Mon, 2 Aug 2021 19:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:08:32.007197
- Title: Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning
- Title(参考訳): BiLSTMに基づく機械学習によるアラビア語のソフトスペル誤りの訂正
- Authors: Gheith A. Abandah, Ashraf Suyyagh, Mohammed Z. Khedher
- Abstract要約: 柔らかい綴りの誤りは、アラビア語話者や外国の学習者にも広く見られる。
我々は、一連のBiLSTMネットワークを開発し、訓練し、評価し、比較し、この種のエラーを修正します。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%の低い文字エラー率を達成する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft spelling errors are a class of spelling mistakes that is widespread
among native Arabic speakers and foreign learners alike. Some of these errors
are typographical in nature. They occur due to orthographic variations of some
Arabic letters and the complex rules that dictate their correct usage. Many
people forgo these rules, and given the identical phonetic sounds, they often
confuse such letters. In this paper, we propose a bidirectional long short-term
memory network that corrects this class of errors. We develop, train, evaluate,
and compare a set of BiLSTM networks. We approach the spelling correction
problem at the character level. We handle Arabic texts from both classical and
modern standard Arabic. We treat the problem as a one-to-one sequence
transcription problem. Since the soft Arabic errors class encompasses omission
and addition mistakes, to preserve the one-to-one sequence transcription, we
propose a simple low-resource yet effective technique that maintains the
one-to-one sequencing and avoids using a costly encoder-decoder architecture.
We train the BiLSTM models to correct the spelling mistakes using transformed
input and stochastic error injection approaches. We recommend a configuration
that has two BiLSTM layers, uses the dropout regularization, and is trained
using the latter training approach with error injection rate of 40%. The best
model corrects 96.4% of the injected errors and achieves a low character error
rate of 1.28% on a real test set of soft spelling mistakes.
- Abstract(参考訳): ソフトスペル誤り(Soft spelling error)とは、アラビア語話者や外国語学習者の間で広く見られる綴りミスの一種である。
これらの誤りのいくつかは、自然界におけるタイポグラフィ的である。
アラビア文字の正書法的なバリエーションと、それらの正しい用法を規定する複雑な規則が原因である。
多くの人々がこれらの規則を禁止し、同じ音質の音をすると、しばしばそのような文字を混同する。
本稿では,このタイプの誤りを訂正する双方向長短期記憶ネットワークを提案する。
我々は一連のBiLSTMネットワークを開発し、訓練し、評価し、比較する。
我々は文字レベルでスペル補正問題にアプローチする。
我々は古典と現代の両方のアラビア語のテキストを扱う。
我々はこの問題を1対1のシーケンス転写問題として扱う。
ソフトアラビアエラークラスは, 1対1のシーケンス転写を保存するために, 欠落と加算ミスを包含するので, 1対1のシーケンシングを維持し, コストのかかるエンコーダ-デコーダアーキテクチャを使わない, 簡単な低リソースかつ効果的な手法を提案する。
我々は、変換入力と確率的エラーインジェクションアプローチを用いてスペルミスを修正するためにbilstmモデルを訓練する。
2つのBiLSTMレイヤを持ち、ドロップアウト正規化を使用し、エラー注入率40%の後者のトレーニングアプローチを用いてトレーニングされる構成を推奨する。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%低い文字誤り率を達成する。
関連論文リスト
- Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction [0.32885740436059047]
本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
論文 参考訳(メタデータ) (2024-11-07T10:17:40Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。
本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文 参考訳(メタデータ) (2024-07-24T16:07:11Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Tokenization Repair in the Presence of Spelling Errors [0.2964978357715083]
エラーのスペルは存在するが、修正する問題の一部ではない。
高品質なトークン化修復の鍵となる3つの要素を同定する。
論文 参考訳(メタデータ) (2020-10-15T16:55:45Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。