Fugu-MT 論文翻訳(概要): Correcting the Autocorrect: Context-Aware Typographical Error Correction via Training Data Augmentation

論文の概要: Correcting the Autocorrect: Context-Aware Typographical Error Correction via Training Data Augmentation

arxiv url: http://arxiv.org/abs/2005.01158v1
Date: Sun, 3 May 2020 18:08:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 06:24:58.367037
Title: Correcting the Autocorrect: Context-Aware Typographical Error Correction via Training Data Augmentation
Title（参考訳）: 自動修正:トレーニングデータ拡張による文脈認識型誤り訂正
Authors: Kshitij Shah, Gerard de Melo
Abstract要約: まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
参考スコア（独自算出の注目度）: 38.10429793534442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore the artificial generation of typographical errors based on real-world statistics. We first draw on a small set of annotated data to compute spelling error statistics. These are then invoked to introduce errors into substantially larger corpora. The generation methodology allows us to generate particularly challenging errors that require context-aware error detection. We use it to create a set of English language error detection and correction datasets. Finally, we examine the effectiveness of machine learning models for detecting and correcting errors based on this data. The datasets are available at http://typo.nlproc.org
Abstract（参考訳）: 本稿では,実世界統計に基づくタイポグラフィーエラーの人工生成について検討する。最初に注釈付きデータの小さなセットを描き、スペルエラーの統計量を計算する。これらはその後、大幅に大きなコーパスにエラーを導入するために呼び出される。生成手法により、コンテキスト認識エラー検出を必要とする特に困難なエラーを生成できる。私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。最後に,このデータに基づく誤りの検出と修正における機械学習モデルの有効性について検討する。データセットはhttp://typo.nlproc.orgで利用可能である。

関連論文リスト

Adapting LLMs for Minimal-edit Grammatical Error Correction [0.0]
本稿では,誤り率適応のトピックについて検討し,新しいトレーニングスケジュール法を提案する。我々の実験は、BEA-testセット上の単一モデルシステムに対して、新しい最先端の結果を設定しました。我々は、デトークン化されたデータセットのトレーニングが結果に影響を与えるかどうかを分析し、修正された誤例を用いてデータセットの使用の影響を計測する。
論文参考訳（メタデータ） (2025-06-16T07:00:48Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文参考訳（メタデータ） (2024-09-06T09:26:45Z)
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。このデータは、即座に修正された誤った解ステップで構成されている。このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文参考訳（メタデータ） (2024-08-29T06:49:20Z)
Assessing the Efficacy of Grammar Error Correction: A Human Evaluation Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。その結果、精度は63.66%、リコールは20.19%であった。
論文参考訳（メタデータ） (2024-02-28T06:43:43Z)
Parameter-tuning-free data entry error unlearning with adaptive selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文参考訳（メタデータ） (2024-02-06T14:04:31Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)
Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文参考訳（メタデータ） (2021-04-20T12:43:40Z)
Deep Neural Network: An Efficient and Optimized Machine Learning Paradigm for Reducing Genome Sequencing Error [27.84400682210533]
シークエンシングプロセスで使用されるプラットフォームのほとんどは、重大なエラーを発生させることが知られている。置換とインデルという2種類のゲノムエラーについて、我々の研究はインデルの修正に重点を置いている。ディープラーニングアプローチは、選択したデータセットをシーケンシングする際のエラーを修正するために使用された。
論文参考訳（メタデータ） (2020-10-06T08:16:35Z)
On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文参考訳（メタデータ） (2020-05-12T11:01:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。