論文の概要: Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation
- arxiv url: http://arxiv.org/abs/2005.01158v1
- Date: Sun, 3 May 2020 18:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:24:58.367037
- Title: Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation
- Title(参考訳): 自動修正:トレーニングデータ拡張による文脈認識型誤り訂正
- Authors: Kshitij Shah, Gerard de Melo
- Abstract要約: まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。
その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
- 参考スコア(独自算出の注目度): 38.10429793534442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the artificial generation of typographical errors
based on real-world statistics. We first draw on a small set of annotated data
to compute spelling error statistics. These are then invoked to introduce
errors into substantially larger corpora. The generation methodology allows us
to generate particularly challenging errors that require context-aware error
detection. We use it to create a set of English language error detection and
correction datasets. Finally, we examine the effectiveness of machine learning
models for detecting and correcting errors based on this data. The datasets are
available at http://typo.nlproc.org
- Abstract(参考訳): 本稿では,実世界統計に基づくタイポグラフィーエラーの人工生成について検討する。
最初に注釈付きデータの小さなセットを描き、スペルエラーの統計量を計算する。
これらはその後、大幅に大きなコーパスにエラーを導入するために呼び出される。
生成手法により、コンテキスト認識エラー検出を必要とする特に困難なエラーを生成できる。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
最後に,このデータに基づく誤りの検出と修正における機械学習モデルの有効性について検討する。
データセットはhttp://typo.nlproc.orgで利用可能である。
関連論文リスト
- Assessing the Efficacy of Grammar Error Correction: A Human Evaluation
Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。
自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。
その結果、精度は63.66%、リコールは20.19%であった。
論文 参考訳(メタデータ) (2024-02-28T06:43:43Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z) - Defuse: Harnessing Unrestricted Adversarial Examples for Debugging
Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。
本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。
Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文 参考訳(メタデータ) (2021-02-11T18:08:42Z) - Deep Neural Network: An Efficient and Optimized Machine Learning
Paradigm for Reducing Genome Sequencing Error [27.84400682210533]
シークエンシングプロセスで使用されるプラットフォームのほとんどは、重大なエラーを発生させることが知られている。
置換とインデルという2種類のゲノムエラーについて、我々の研究はインデルの修正に重点を置いている。
ディープラーニングアプローチは、選択したデータセットをシーケンシングする際のエラーを修正するために使用された。
論文 参考訳(メタデータ) (2020-10-06T08:16:35Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。