論文の概要: Real-Word Error Correction with Trigrams: Correcting Multiple Errors in
a Sentence
- arxiv url: http://arxiv.org/abs/2302.04096v1
- Date: Tue, 7 Feb 2023 13:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:00:37.685996
- Title: Real-Word Error Correction with Trigrams: Correcting Multiple Errors in
a Sentence
- Title(参考訳): trigramsによる実単語誤り訂正:文中の複数の誤りの訂正
- Authors: Seyed MohammadSadegh Dashti
- Abstract要約: 本稿では,文中の複数単語の誤りを検出し,訂正することに焦点を当てた新しいバリエーションを提案する。
We test our approach on the Wall Street Journal corpus and show that it developed of Hirst and Budanitsky's WordNet based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows size method。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spelling correction is a fundamental task in Text Mining. In this study, we
assess the real-word error correction model proposed by Mays, Damerau and
Mercer and describe several drawbacks of the model. We propose a new variation
which focuses on detecting and correcting multiple real-word errors in a
sentence, by manipulating a Probabilistic Context-Free Grammar (PCFG) to
discriminate between items in the search space. We test our approach on the
Wall Street Journal corpus and show that it outperforms Hirst and Budanitsky's
WordNet-based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows
size method.-O'Hearn, Hirst, and Budanitsky's fixed windows size method.
- Abstract(参考訳): スペル補正はテキストマイニングの基本課題である。
本研究では,mays,damerau,mercerが提案した実単語誤り訂正モデルを評価し,モデルの欠点について述べる。
本稿では,確率的文脈自由文法(PCFG)を演算することで,文中の複数単語の誤りを検出し,修正することに焦点を当てた新しいバリエーションを提案する。
我々はこのアプローチをwall street journalのコーパスでテストし、hirst と budanitsky の wordnet ベースのメソッドや wilcox-o'hearn, hirst, および budanitsky の固定ウィンドウサイズメソッドよりも優れていることを示した。
-o'hearn、hirst、budanitskyの固定ウィンドウサイズメソッド。
関連論文リスト
- Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on
Algorithmically-Generated Misspellings [2.6585272566200144]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework
for Spelling Error Correction of Bangla and Resource Scarce Indic Languages [1.7205106391379026]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では, 従来の問題に対処し, 変圧器をデノナイズする新しい検出器・ピューリフィエータ・コレクタフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - A Simple and Practical Approach to Improve Misspellings in OCR Text [0.0]
本稿では,OCRテキストにおける非単語誤りの同定と訂正に焦点を当てる。
従来のN-gram補正法は、1ワード誤りを効果的に処理できる。
本稿では,分割およびマージエラーを処理可能な教師なし手法を開発する。
論文 参考訳(メタデータ) (2021-06-22T19:38:17Z) - Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。
MWPを学習するためのテキスト弱教師付きパラダイムを提案する。
この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文 参考訳(メタデータ) (2020-12-19T03:10:21Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Tokenization Repair in the Presence of Spelling Errors [0.2964978357715083]
エラーのスペルは存在するが、修正する問題の一部ではない。
高品質なトークン化修復の鍵となる3つの要素を同定する。
論文 参考訳(メタデータ) (2020-10-15T16:55:45Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。