論文の概要: DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework
for Spelling Error Correction of Bangla and Resource Scarce Indic Languages
- arxiv url: http://arxiv.org/abs/2211.03730v1
- Date: Mon, 7 Nov 2022 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:02:38.426791
- Title: DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework
for Spelling Error Correction of Bangla and Resource Scarce Indic Languages
- Title(参考訳): DPCSpell: Bangla と Resource Scarce Indic Language の誤り訂正をスペルするトランスフォーマーベースのインタプリケータ・コレクタフレームワーク
- Authors: Mehedi Hasan Bijoy, Nahid Hossain, Salekul Islam, Swakkhar Shatabda
- Abstract要約: スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では, 従来の問題に対処し, 変圧器をデノナイズする新しい検出器・ピューリフィエータ・コレクタフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spelling error correction is the task of identifying and rectifying
misspelled words in texts. It is a potential and active research topic in
Natural Language Processing because of numerous applications in human language
understanding. The phonetically or visually similar yet semantically distinct
characters make it an arduous task in any language. Earlier efforts on spelling
error correction in Bangla and resource-scarce Indic languages focused on
rule-based, statistical, and machine learning-based methods which we found
rather inefficient. In particular, machine learning-based approaches, which
exhibit superior performance to rule-based and statistical methods, are
ineffective as they correct each character regardless of its appropriateness.
In this work, we propose a novel detector-purificator-corrector framework based
on denoising transformers by addressing previous issues. Moreover, we present a
method for large-scale corpus creation from scratch which in turn resolves the
resource limitation problem of any left-to-right scripted language. The
empirical outcomes demonstrate the effectiveness of our approach that
outperforms previous state-of-the-art methods by a significant margin for
Bangla spelling error correction. The models and corpus are publicly available
at https://tinyurl.com/DPCSpell.
- Abstract(参考訳): 誤字訂正は、テキスト中の誤字を識別し、修正するタスクである。
自然言語処理において、人間の言語理解に多くの応用があるため、潜在的かつ活発な研究テーマである。
音声的または視覚的に類似しているが意味的に異なる文字は、あらゆる言語において困難なタスクである。
バングラ語とリソーススカルス言語におけるスペル誤り訂正の取り組みは、ルールベース、統計的、機械学習ベースの方法に焦点が当てられていた。
特に、ルールベースや統計的手法に優れた性能を示す機械学習ベースのアプローチは、その適切性に関係なく各文字を補正するので効果がない。
本研究では, 従来の問題に対処し, 変圧器のデノゲーションに基づく新しい検出器・ピューリフィエータ・コレクタフレームワークを提案する。
さらに,スクラッチから大規模なコーパス作成を行う手法を提案する。
実験結果から,バングラの綴り誤り訂正の有意なマージンは,従来の最先端手法を上回った手法の有効性を示す。
モデルとコーパスはhttps://tinyurl.com/DPCSpell.comで公開されている。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis [0.0]
本研究では,ディープラーニング技術と音声解析をシームレスに統合したペルシャ語スペル訂正システムを提案する。
提案手法は,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを正確に補正する。
広帯域データセットの徹底的な評価により,既存手法と比較してシステムの性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-07-20T07:41:04Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Correcting diacritics and typos with ByT5 transformer model [0.0]
人々は、ダイアクリティカルを使ってタイピング時にタイプミス(タイポ)をする傾向がある。
本研究では,新たに開発されたByT5バイトレベルのトランスモデルを用いて,両問題に一度に対処する。
ダイアクリティカルス修復とタイポス補正の併用により,13言語における最先端性能が実証された。
論文 参考訳(メタデータ) (2022-01-31T13:52:51Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - VSEC: Transformer-based Model for Vietnamese Spelling Correction [0.19116784879310028]
ベトナム語のスペル誤りを訂正する新しい手法を提案する。
深層学習モデルを用いて誤字誤りや誤字誤りの問題に対処する。
実験の結果,86.8%の誤差が検出され,81.5%の誤りが修正された。
論文 参考訳(メタデータ) (2021-11-01T00:55:32Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。