論文の概要: Judge a Sentence by Its Content to Generate Grammatical Errors
- arxiv url: http://arxiv.org/abs/2208.09693v1
- Date: Sat, 20 Aug 2022 14:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:58:36.640581
- Title: Judge a Sentence by Its Content to Generate Grammatical Errors
- Title(参考訳): 文法エラー生成のための内容による文判断
- Authors: Chowdhury Rafeed Rahman
- Abstract要約: 文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data sparsity is a well-known problem for grammatical error correction (GEC).
Generating synthetic training data is one widely proposed solution to this
problem, and has allowed models to achieve state-of-the-art (SOTA) performance
in recent years. However, these methods often generate unrealistic errors, or
aim to generate sentences with only one error. We propose a learning based two
stage method for synthetic data generation for GEC that relaxes this constraint
on sentences containing only one error. Errors are generated in accordance with
sentence merit. We show that a GEC model trained on our synthetically generated
corpus outperforms models trained on synthetic data from prior work.
- Abstract(参考訳): データ間隔は文法的誤り訂正(GEC)においてよく知られた問題である。
合成トレーニングデータの生成は、この問題に対する広く提案されている解決策の一つであり、近年、モデルが最先端(SOTA)のパフォーマンスを達成することを可能にする。
しかし、これらの方法はしばしば非現実的なエラーを発生させるか、1つのエラーで文を生成することを目的としている。
本稿では,この制約を1つの誤りのみを含む文に緩和するGECのための学習に基づく2段階合成データ生成手法を提案する。
誤りは文のメリットに応じて発生する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Do Grammatical Error Correction Models Realize Grammatical
Generalization? [8.569720582920416]
本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。
現在の標準変換器ベースGECモデルでは, 簡単な設定でも文法的一般化が得られないことがわかった。
論文 参考訳(メタデータ) (2021-06-06T04:59:29Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。