論文の概要: Adversarial Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2010.02407v1
- Date: Tue, 6 Oct 2020 00:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 04:52:08.977722
- Title: Adversarial Grammatical Error Correction
- Title(参考訳): 逆文法的誤り訂正
- Authors: Vipul Raheja and Dimitrios Alikaniotis
- Abstract要約: 本稿では,ジェネレータ・ディスクリミネータ・フレームワークを用いた文法誤り訂正(GEC)に対する逆学習手法を提案する。
我々は、識別器とジェネレータの両方を並列テキストで事前訓練し、さらにポリシー勾配法を用いて微調整する。
FCE, CoNLL-14, BEA-19データセットによる実験結果から, Adversarial-GEC は NMT ベースのベースラインに比べて競争力のある GEC 品質を達成できることが示された。
- 参考スコア(独自算出の注目度): 2.132096006921048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works in Grammatical Error Correction (GEC) have leveraged the
progress in Neural Machine Translation (NMT), to learn rewrites from parallel
corpora of grammatically incorrect and corrected sentences, achieving
state-of-the-art results. At the same time, Generative Adversarial Networks
(GANs) have been successful in generating realistic texts across many different
tasks by learning to directly minimize the difference between human-generated
and synthetic text. In this work, we present an adversarial learning approach
to GEC, using the generator-discriminator framework. The generator is a
Transformer model, trained to produce grammatically correct sentences given
grammatically incorrect ones. The discriminator is a sentence-pair
classification model, trained to judge a given pair of grammatically
incorrect-correct sentences on the quality of grammatical correction. We
pre-train both the discriminator and the generator on parallel texts and then
fine-tune them further using a policy gradient method that assigns high rewards
to sentences which could be true corrections of the grammatically incorrect
text. Experimental results on FCE, CoNLL-14, and BEA-19 datasets show that
Adversarial-GEC can achieve competitive GEC quality compared to NMT-based
baselines.
- Abstract(参考訳): 文法的誤り訂正(GEC)の最近の研究は、ニューラルマシン翻訳(NMT)の進歩を活用し、文法的誤りと訂正された文の並列コーパスから書き直しを学習し、最先端の結果を得た。
同時に、gans(generative adversarial network)は、人間が生成したテキストと合成したテキストの違いを直接最小化することで、様々なタスクにまたがって現実的なテキストを生成することに成功した。
本稿では,ジェネレータ・判別子フレームワークを用いて,gecに対する逆学習手法を提案する。
ジェネレータはトランスフォーマーモデルであり、文法的に正しい文を生成するように訓練されている。
判別器は文対分類モデルであり、文法的訂正の品質に基づいて、与えられた文法的不正確な文のペアを判断するように訓練される。
並列テキスト上で判別器と生成器の両方を事前学習し,その後,文法的不正確なテキストの真正訂正である文に対して高い報酬を付与するポリシー勾配法を用いてさらに微調整する。
FCE, CoNLL-14, BEA-19データセットによる実験結果から, Adversarial-GEC は NMT ベースのベースラインに比べて競争力のある GEC 品質を達成できることが示された。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。