論文の概要: Automatic Real-word Error Correction in Persian Text
- arxiv url: http://arxiv.org/abs/2407.14795v1
- Date: Sat, 20 Jul 2024 07:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:54:16.003881
- Title: Automatic Real-word Error Correction in Persian Text
- Title(参考訳): ペルシャ語テキストにおける単語誤りの自動訂正
- Authors: Seyed Mohammad Sadegh Dashti, Amid Khatibi Bardsiri, Mehdi Jafari Shahbazzadeh,
- Abstract要約: 本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic spelling correction stands as a pivotal challenge within the ambit of natural language processing (NLP), demanding nuanced solutions. Traditional spelling correction techniques are typically only capable of detecting and correcting non-word errors, such as typos and misspellings. However, context-sensitive errors, also known as real-word errors, are more challenging to detect because they are valid words that are used incorrectly in a given context. The Persian language, characterized by its rich morphology and complex syntax, presents formidable challenges to automatic spelling correction systems. Furthermore, the limited availability of Persian language resources makes it difficult to train effective spelling correction models. This paper introduces a cutting-edge approach for precise and efficient real-word error correction in Persian text. Our methodology adopts a structured, multi-tiered approach, employing semantic analysis, feature selection, and advanced classifiers to enhance error detection and correction efficacy. The innovative architecture discovers and stores semantic similarities between words and phrases in Persian text. The classifiers accurately identify real-word errors, while the semantic ranking algorithm determines the most probable corrections for real-word errors, taking into account specific spelling correction and context properties such as context, semantic similarity, and edit-distance measures. Evaluations have demonstrated that our proposed method surpasses previous Persian real-word error correction models. Our method achieves an impressive F-measure of 96.6% in the detection phase and an accuracy of 99.1% in the correction phase. These results clearly indicate that our approach is a highly promising solution for automatic real-word error correction in Persian text.
- Abstract(参考訳): 自動スペル補正は、自然言語処理(NLP)における重要な課題であり、ニュアンス付き解を必要とする。
伝統的な綴り補正技術は典型的には、タイプミスやミススペルのような非単語エラーを検出して修正するだけである。
しかし、実単語エラーとしても知られる文脈に敏感なエラーは、与えられた文脈で誤って使用される有効な単語であるため、より検出するのが困難である。
ペルシア語は、その豊富な形態と複雑な構文を特徴とし、自動綴り訂正システムに重大な課題を呈している。
さらに、ペルシア語のリソースが限られているため、効果的な綴り補正モデルを訓練することは困難である。
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
提案手法では, 意味解析, 特徴選択, 高度な分類器を応用し, 誤り検出と訂正の精度を高める。
この革新的なアーキテクチャは、ペルシャ語のテキストで単語とフレーズのセマンティックな類似性を発見し、保存する。
分類器は、実単語の誤りを正確に識別し、意味ランキングアルゴリズムは、文脈、意味的類似性、編集距離測定などのコンテキスト特性を考慮し、実単語の誤りの最も確率の高い補正を決定する。
提案手法は,従来のペルシャ語実単語誤り訂正モデルより優れていることを示す。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
これらの結果から,ペルシャ語テキストにおける実単語の自動誤り訂正の手法として,本手法が有望であることが明らかとなった。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis [0.0]
本研究では,ディープラーニング技術と音声解析をシームレスに統合したペルシャ語スペル訂正システムを提案する。
提案手法は,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを正確に補正する。
広帯域データセットの徹底的な評価により,既存手法と比較してシステムの性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-07-20T07:41:04Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Vartani Spellcheck -- Automatic Context-Sensitive Spelling Correction of
OCR-generated Hindi Text Using BERT and Levenshtein Distance [3.0422254248414276]
Vartani Spellcheck はヒンディー語テキストのスペル補正のための文脈依存型アプローチである。
81%の精度で, 従来確立されていたヒンディー語における文脈依存的誤り訂正機構よりも有意な改善が認められた。
論文 参考訳(メタデータ) (2020-12-14T15:49:54Z) - Context-aware Stand-alone Neural Spelling Correction [11.643354740136953]
本稿では,事前学習した言語モデルを微調整することにより,ミススペルをシーケンスラベリングタスクとして共同で検出し,修正する,シンプルで強力なソリューションを提案する。
我々の解は、これまでの最先端の結果を12.8%の絶対F0.5スコアで上回っている。
論文 参考訳(メタデータ) (2020-11-12T20:34:49Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。