論文の概要: Correcting Real-Word Spelling Errors: A New Hybrid Approach
- arxiv url: http://arxiv.org/abs/2302.06407v1
- Date: Thu, 9 Feb 2023 06:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:11:01.560300
- Title: Correcting Real-Word Spelling Errors: A New Hybrid Approach
- Title(参考訳): 実単語の綴り誤りの修正:新しいハイブリッドアプローチ
- Authors: Seyed MohammadSadegh Dashti, Amid Khatibi Bardsiri, Vahid Khatibi
Bardsiri
- Abstract要約: 実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spelling correction is one of the main tasks in the field of Natural Language
Processing. Contrary to common spelling errors, real-word errors cannot be
detected by conventional spelling correction methods. The real-word correction
model proposed by Mays, Damerau and Mercer showed a great performance in
different evaluations. In this research, however, a new hybrid approach is
proposed which relies on statistical and syntactic knowledge to detect and
correct real-word errors. In this model, Constraint Grammar (CG) is used to
discriminate among sets of correction candidates in the search space. Mays,
Damerau and Mercer's trigram approach is manipulated to estimate the
probability of syntactically well-formed correction candidates. The approach
proposed here is tested on the Wall Street Journal corpus. The model can prove
to be more practical than some other models, such as WordNet-based method of
Hirst and Budanitsky and fixed windows size method of Wilcox-O'Hearn and Hirst.
- Abstract(参考訳): スペル補正は自然言語処理の分野における主要なタスクの1つである。
一般的な綴り誤りとは対照的に、実語誤りは従来の綴り補正法では検出できない。
Mays, Damerau, Mercerによって提案された実単語補正モデルは, 様々な評価において優れた性能を示した。
しかし,本研究では,実語誤りの検出と訂正のために統計的・構文的知識に依存する新しいハイブリッド手法を提案する。
このモデルでは、制約文法(CG)を用いて、探索空間内の修正候補の集合を識別する。
Mays, Damerau と Mercer のトリグラムアプローチは、構文的によく整形された修正候補の確率を推定するために操作される。
提案されたアプローチは、Wall Street Journalのコーパスでテストされている。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Real-Word Error Correction with Trigrams: Correcting Multiple Errors in
a Sentence [0.0]
本稿では,文中の複数単語の誤りを検出し,訂正することに焦点を当てた新しいバリエーションを提案する。
We test our approach on the Wall Street Journal corpus and show that it developed of Hirst and Budanitsky's WordNet based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows size method。
論文 参考訳(メタデータ) (2023-02-07T13:52:14Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - A Simple and Practical Approach to Improve Misspellings in OCR Text [0.0]
本稿では,OCRテキストにおける非単語誤りの同定と訂正に焦点を当てる。
従来のN-gram補正法は、1ワード誤りを効果的に処理できる。
本稿では,分割およびマージエラーを処理可能な教師なし手法を開発する。
論文 参考訳(メタデータ) (2021-06-22T19:38:17Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。