論文の概要: Grammatical Error Generation Based on Translated Fragments
- arxiv url: http://arxiv.org/abs/2104.09933v1
- Date: Tue, 20 Apr 2021 12:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 19:28:59.902233
- Title: Grammatical Error Generation Based on Translated Fragments
- Title(参考訳): 翻訳断片に基づく文法的誤り生成
- Authors: Eetu Sj\"oblom and Mathias Creutz and Teemu Vahtola
- Abstract要約: 英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We perform neural machine translation of sentence fragments in order to
create large amounts of training data for English grammatical error correction.
Our method aims at simulating mistakes made by second language learners, and
produces a wider range of non-native style language in comparison to
state-of-the-art synthetic data creation methods. In addition to purely
grammatical errors, our approach generates other types of errors, such as
lexical errors. We perform grammatical error correction experiments using
neural sequence-to-sequence models, and carry out quantitative and qualitative
evaluation. A model trained on data created using our proposed method is shown
to outperform a baseline model on test data with a high proportion of errors.
- Abstract(参考訳): 英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は, 第二言語学習者の誤りをシミュレーションし, 最先端の合成データ生成手法と比較して, より広範な非ネイティブ言語を生成することを目的とする。
純粋に文法的な誤りに加えて、語彙的エラーなど、他のタイプのエラーも生成する。
ニューラルネットワークを用いた文法的誤り訂正実験を行い,定量的かつ定性的な評価を行う。
提案手法を用いて生成したデータに基づいて学習したモデルは,高い誤差率でテストデータ上でのベースラインモデルより優れていることを示す。
関連論文リスト
- Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Judge a Sentence by Its Content to Generate Grammatical Errors [0.0]
文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-20T14:31:34Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Exploring the Capacity of a Large-scale Masked Language Model to
Recognize Grammatical Errors [3.55517579369797]
トレーニングデータの5~10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。
また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
論文 参考訳(メタデータ) (2021-08-27T10:37:14Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Neural Text Generation with Artificial Negative Examples [7.187858820534111]
強化学習フレームワークでテキスト生成モデルを訓練することにより,任意のタイプのエラーを抑制することを提案する。
我々は、目標となるタイプのエラーを含む参照と文を識別できる訓練可能な報酬関数を使用する。
実験の結果,生成誤差の抑制と2つの機械翻訳と2つの画像キャプションタスクの大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2020-12-28T07:25:10Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。