論文の概要: Persian Typographical Error Type Detection using Many-to-Many Deep
Neural Networks on Algorithmically-Generated Misspellings
- arxiv url: http://arxiv.org/abs/2305.11731v1
- Date: Fri, 19 May 2023 15:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:00:57.516665
- Title: Persian Typographical Error Type Detection using Many-to-Many Deep
Neural Networks on Algorithmically-Generated Misspellings
- Title(参考訳): 多対多深層ニューラルネットワークを用いたペルシャタイポグラフィー型誤り検出法
- Authors: Mohammad Dehghani, Heshaam Faili
- Abstract要約: タイポグラフィーによるペルシャの誤り型検出は比較的研究されている。
我々はFarsTypoという,340万の時系列順と音声タグ付き単語を含む公開データセットを提示する。
また,単語と文字の埋め込みを用いたトークン分類を行うための,多対多の深度ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 1.65098992743724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Digital technologies have led to an influx of text created daily in a variety
of languages, styles, and formats. A great deal of the popularity of
spell-checking systems can be attributed to this phenomenon since they are
crucial to polishing the digitally conceived text. In this study, we tackle
Typographical Error Type Detection in Persian, which has been relatively
understudied. In this paper, we present a public dataset named FarsTypo,
containing 3.4 million chronologically ordered and part-of-speech tagged words
of diverse topics and linguistic styles. An algorithm for applying
Persian-specific errors is developed and applied to a scalable size of these
words, forming a parallel dataset of correct and incorrect words. Using
FarsTypo, we establish a firm baseline and compare different methodologies
using various architectures. In addition, we present a novel Many-to-Many Deep
Sequential Neural Network to perform token classification using both word and
character embeddings in combination with bidirectional LSTM layers to detect
typographical errors across 51 classes. We compare our approach with
highly-advanced industrial systems that, unlike this study, have been developed
utilizing a variety of resources. The results of our final method were
competitive in that we achieved an accuracy of 97.62%, a precision of 98.83%, a
recall of 98.61%, and outperformed the rest in terms of speed.
- Abstract(参考訳): デジタル技術は、様々な言語、スタイル、フォーマットで毎日作成されるテキストの流入につながっている。
スペルチェックシステムの人気は、デジタル化されたテキストの洗練に欠かせないため、この現象に起因していると考えられる。
本研究では,ペルシャ語におけるタイポグラフィーの誤り型検出について検討した。
本稿では,多種多様な話題や言語スタイルをタグづけした3.4百万の時系列順とパート・オブ・スパイクのタグ付き単語を含む,farstypoという公開データセットを提案する。
ペルシア語固有の誤りを適用するアルゴリズムを開発し、これらの単語のスケーラブルなサイズに適用し、正誤の並列データセットを形成する。
farstypo を用いて強固なベースラインを確立し,様々なアーキテクチャを用いて異なる方法論を比較する。
さらに, 単語と文字の埋め込みと双方向のLSTMレイヤを併用してトークン分類を行い, 51のクラスにまたがるタイポグラフィ的誤りを検出する新しいMulti-to-Many Deep Sequential Neural Networkを提案する。
本研究と異なり,多種多様な資源を用いて開発してきた高度産業システムとの比較を行った。
最終手法の結果は、97.62%の精度、98.83%の精度、98.61%のリコールを達成し、残りの性能をスピードで上回った。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。
本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文 参考訳(メタデータ) (2024-07-24T16:07:11Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis [0.0]
本研究では,ディープラーニング技術と音声解析をシームレスに統合したペルシャ語スペル訂正システムを提案する。
提案手法は,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを正確に補正する。
広帯域データセットの徹底的な評価により,既存手法と比較してシステムの性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-07-20T07:41:04Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。