論文の概要: AraSpell: A Deep Learning Approach for Arabic Spelling Correction
- arxiv url: http://arxiv.org/abs/2405.06981v1
- Date: Sat, 11 May 2024 10:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 19:07:50.067502
- Title: AraSpell: A Deep Learning Approach for Arabic Spelling Correction
- Title(参考訳): AraSpell: アラビア語のスペル訂正のためのディープラーニングアプローチ
- Authors: Mahmoud Salhab, Faisal Abu-Khzam,
- Abstract要約: AraSpellは、異なるSeq2seqモデルアーキテクチャを用いたアラビア文字の綴り補正のためのフレームワークである。
690万件以上のアラビア語の文で訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spelling correction is the task of identifying spelling mistakes, typos, and grammatical mistakes in a given text and correcting them according to their context and grammatical structure. This work introduces "AraSpell," a framework for Arabic spelling correction using different seq2seq model architectures such as Recurrent Neural Network (RNN) and Transformer with artificial data generation for error injection, trained on more than 6.9 Million Arabic sentences. Thorough experimental studies provide empirical evidence of the effectiveness of the proposed approach, which achieved 4.8% and 1.11% word error rate (WER) and character error rate (CER), respectively, in comparison with labeled data of 29.72% WER and 5.03% CER. Our approach achieved 2.9% CER and 10.65% WER in comparison with labeled data of 10.02% CER and 50.94% WER. Both of these results are obtained on a test set of 100K sentences.
- Abstract(参考訳): スペリング訂正(spelling correct)とは、あるテキストのスペルミス、タイプミス、文法ミスを識別し、文脈や文法構造に応じて修正するタスクである。
この研究は、リカレントニューラルネットワーク(RNN)やトランスフォーマー(Transformer)といった異なるセック2seqモデルアーキテクチャを用いて690万以上のアラビア語文でトレーニングされた、アラビア語のスペル訂正のためのフレームワークである"AraSpell"を紹介した。
詳細な実験により,提案手法の有効性を実証的に検証し,29.72%のWERと5.03%のCERと比較し,それぞれ4.8%,1.11%の単語誤り率(WER)および文字誤り率(CER)を達成した。
提案手法はCERが2.9%,WERが10.65%,CERが10.02%,WERが50.94%であった。
これらの結果は100K文の試験セットで得られる。
関連論文リスト
- Grammatical Error Correction for Low-Resource Languages: The Case of Zarma [8.057796934109938]
文法的誤り訂正(GEC)は、Zarmaのような低リソース言語のために書かれた材料を改善するために重要である。
本研究では,Zarma における GEC のためのルールベース手法,機械翻訳 (MT) モデル,および大規模言語モデル (LLM) を比較した。
論文 参考訳(メタデータ) (2024-10-20T23:51:36Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Assessing the Efficacy of Grammar Error Correction: A Human Evaluation
Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。
自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。
その結果、精度は63.66%、リコールは20.19%であった。
論文 参考訳(メタデータ) (2024-02-28T06:43:43Z) - GEE! Grammar Error Explanation with Large Language Models [64.16199533560017]
本稿では,文法的誤りを1対の誤り文と訂正文に1文で説明する必要がある文法的誤り説明の課題を提案する。
文法的誤り説明における GPT-4 の能力を解析し, ワンショットプロンプトを用いた60.2% の誤り説明しか生成しないことを確認した。
我々は、構造化されたアトミックトークンの編集を行うために、微調整された大規模言語モデルを活用する2段階のパイプラインを開発した。
論文 参考訳(メタデータ) (2023-11-16T02:45:47Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Spell Correction for Azerbaijani Language using Deep Neural Networks [0.0]
本論文は,アゼルバイジャン語のスペル補正を開発するために,アテンション機構付きシーケンスモデルを用いている。
合計12000の誤りと正しい文対が訓練に使われ、このモデルは実世界の誤文1000語で試験される。
論文 参考訳(メタデータ) (2021-02-05T15:02:35Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。