論文の概要: Real-Word Error Correction with Trigrams: Correcting Multiple Errors in
a Sentence
- arxiv url: http://arxiv.org/abs/2302.04096v1
- Date: Tue, 7 Feb 2023 13:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:00:37.685996
- Title: Real-Word Error Correction with Trigrams: Correcting Multiple Errors in
a Sentence
- Title(参考訳): trigramsによる実単語誤り訂正:文中の複数の誤りの訂正
- Authors: Seyed MohammadSadegh Dashti
- Abstract要約: 本稿では,文中の複数単語の誤りを検出し,訂正することに焦点を当てた新しいバリエーションを提案する。
We test our approach on the Wall Street Journal corpus and show that it developed of Hirst and Budanitsky's WordNet based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows size method。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spelling correction is a fundamental task in Text Mining. In this study, we
assess the real-word error correction model proposed by Mays, Damerau and
Mercer and describe several drawbacks of the model. We propose a new variation
which focuses on detecting and correcting multiple real-word errors in a
sentence, by manipulating a Probabilistic Context-Free Grammar (PCFG) to
discriminate between items in the search space. We test our approach on the
Wall Street Journal corpus and show that it outperforms Hirst and Budanitsky's
WordNet-based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows
size method.-O'Hearn, Hirst, and Budanitsky's fixed windows size method.
- Abstract(参考訳): スペル補正はテキストマイニングの基本課題である。
本研究では,mays,damerau,mercerが提案した実単語誤り訂正モデルを評価し,モデルの欠点について述べる。
本稿では,確率的文脈自由文法(PCFG)を演算することで,文中の複数単語の誤りを検出し,修正することに焦点を当てた新しいバリエーションを提案する。
我々はこのアプローチをwall street journalのコーパスでテストし、hirst と budanitsky の wordnet ベースのメソッドや wilcox-o'hearn, hirst, および budanitsky の固定ウィンドウサイズメソッドよりも優れていることを示した。
-o'hearn、hirst、budanitskyの固定ウィンドウサイズメソッド。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - A Simple and Practical Approach to Improve Misspellings in OCR Text [0.0]
本稿では,OCRテキストにおける非単語誤りの同定と訂正に焦点を当てる。
従来のN-gram補正法は、1ワード誤りを効果的に処理できる。
本稿では,分割およびマージエラーを処理可能な教師なし手法を開発する。
論文 参考訳(メタデータ) (2021-06-22T19:38:17Z) - Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。
MWPを学習するためのテキスト弱教師付きパラダイムを提案する。
この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文 参考訳(メタデータ) (2020-12-19T03:10:21Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Tokenization Repair in the Presence of Spelling Errors [0.2964978357715083]
エラーのスペルは存在するが、修正する問題の一部ではない。
高品質なトークン化修復の鍵となる3つの要素を同定する。
論文 参考訳(メタデータ) (2020-10-15T16:55:45Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。