論文の概要: Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation
- arxiv url: http://arxiv.org/abs/2005.01158v1
- Date: Sun, 3 May 2020 18:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:24:58.367037
- Title: Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation
- Title(参考訳): 自動修正:トレーニングデータ拡張による文脈認識型誤り訂正
- Authors: Kshitij Shah, Gerard de Melo
- Abstract要約: まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。
その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
- 参考スコア(独自算出の注目度): 38.10429793534442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the artificial generation of typographical errors
based on real-world statistics. We first draw on a small set of annotated data
to compute spelling error statistics. These are then invoked to introduce
errors into substantially larger corpora. The generation methodology allows us
to generate particularly challenging errors that require context-aware error
detection. We use it to create a set of English language error detection and
correction datasets. Finally, we examine the effectiveness of machine learning
models for detecting and correcting errors based on this data. The datasets are
available at http://typo.nlproc.org
- Abstract(参考訳): 本稿では,実世界統計に基づくタイポグラフィーエラーの人工生成について検討する。
最初に注釈付きデータの小さなセットを描き、スペルエラーの統計量を計算する。
これらはその後、大幅に大きなコーパスにエラーを導入するために呼び出される。
生成手法により、コンテキスト認識エラー検出を必要とする特に困難なエラーを生成できる。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
最後に,このデータに基づく誤りの検出と修正における機械学習モデルの有効性について検討する。
データセットはhttp://typo.nlproc.orgで利用可能である。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。
このデータは、即座に修正された誤った解ステップで構成されている。
このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文 参考訳(メタデータ) (2024-08-29T06:49:20Z) - Assessing the Efficacy of Grammar Error Correction: A Human Evaluation
Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。
自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。
その結果、精度は63.66%、リコールは20.19%であった。
論文 参考訳(メタデータ) (2024-02-28T06:43:43Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z) - Deep Neural Network: An Efficient and Optimized Machine Learning
Paradigm for Reducing Genome Sequencing Error [27.84400682210533]
シークエンシングプロセスで使用されるプラットフォームのほとんどは、重大なエラーを発生させることが知られている。
置換とインデルという2種類のゲノムエラーについて、我々の研究はインデルの修正に重点を置いている。
ディープラーニングアプローチは、選択したデータセットをシーケンシングする際のエラーを修正するために使用された。
論文 参考訳(メタデータ) (2020-10-06T08:16:35Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。