論文の概要: Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models
- arxiv url: http://arxiv.org/abs/2105.13318v1
- Date: Thu, 27 May 2021 17:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 19:07:15.360532
- Title: Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models
- Title(参考訳): タグ付き破壊モデルを用いた文法誤り訂正のための合成データ生成
- Authors: Felix Stahlberg and Shankar Kumar
- Abstract要約: ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
- 参考スコア(独自算出の注目度): 15.481446439370343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation is widely known to boost the accuracy of neural
grammatical error correction (GEC) systems, but existing methods often lack
diversity or are too simplistic to generate the broad range of grammatical
errors made by human writers. In this work, we use error type tags from
automatic annotation tools such as ERRANT to guide synthetic data generation.
We compare several models that can produce an ungrammatical sentence given a
clean sentence and an error type tag. We use these models to build a new, large
synthetic pre-training data set with error tag frequency distributions matching
a given development set. Our synthetic data set yields large and consistent
gains, improving the state-of-the-art on the BEA-19 and CoNLL-14 test sets. We
also show that our approach is particularly effective in adapting a GEC system,
trained on mixed native and non-native English, to a native English test set,
even surpassing real training data consisting of high-quality sentence pairs.
- Abstract(参考訳): 合成データ生成は、神経文法的誤り訂正(GEC)システムの精度を高めるために広く知られているが、既存の手法は多様性を欠いている場合や、人間の書き手による幅広い文法的誤りを生成するには単純すぎる場合が多い。
本研究では,errantなどの自動アノテーションツールのエラー型タグを用いて,合成データ生成のガイドを行う。
クリーンな文とエラータイプタグが与えられた非文法的な文を生成できるモデルをいくつか比較した。
我々はこれらのモデルを用いて、与えられた開発セットと一致するエラータグ頻度分布を持つ新しい大規模合成事前学習データセットを構築する。
我々の合成データセットは、BEA-19およびCoNLL-14テストセットの最先端性を向上し、大きく一貫した利得を得る。
また,本手法は,母国語と母国語を混合した英語で学習したGECシステムを,高品質な文対からなる実際の学習データを超えたネイティブ英語テストセットに適応する上で,特に有効であることを示す。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Organic Data-Driven Approach for Turkish Grammatical Error Correction and LLMs [0.0]
我々は,新しい有機データ駆動型アプローチ,クリーン挿入を導入し,並列なトルコ文法的誤り訂正データセットを構築する。
トルコの文法的誤り訂正テストの2つのセットについて, 公開されている3つのうちの2つについて, 最先端の結果を得た。
論文 参考訳(メタデータ) (2024-05-24T08:00:24Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Judge a Sentence by Its Content to Generate Grammatical Errors [0.0]
文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-20T14:31:34Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。