論文の概要: Grammatical Error Correction as GAN-like Sequence Labeling
- arxiv url: http://arxiv.org/abs/2105.14209v1
- Date: Sat, 29 May 2021 04:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:24:12.660500
- Title: Grammatical Error Correction as GAN-like Sequence Labeling
- Title(参考訳): GANライクなシーケンスラベリングとしての文法的誤り訂正
- Authors: Kevin Parnow, Zuchao Li, and Hai Zhao
- Abstract要約: 本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
- 参考スコア(独自算出の注目度): 45.19453732703053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Grammatical Error Correction (GEC), sequence labeling models enjoy fast
inference compared to sequence-to-sequence models; however, inference in
sequence labeling GEC models is an iterative process, as sentences are passed
to the model for multiple rounds of correction, which exposes the model to
sentences with progressively fewer errors at each round. Traditional GEC models
learn from sentences with fixed error rates. Coupling this with the iterative
correction process causes a mismatch between training and inference that
affects final performance. In order to address this mismatch, we propose a
GAN-like sequence labeling model, which consists of a grammatical error
detector as a discriminator and a grammatical error labeler with Gumbel-Softmax
sampling as a generator. By sampling from real error distributions, our errors
are more genuine compared to traditional synthesized GEC errors, thus
alleviating the aforementioned mismatch and allowing for better training. Our
results on several evaluation benchmarks demonstrate that our proposed approach
is effective and improves the previous state-of-the-art baseline.
- Abstract(参考訳): 文法的誤り訂正(GEC)では、シーケンスラベリングモデルはシーケンス・ツー・シーケンスモデルと比較して高速な推論が楽しめるが、シーケンスラベリングGECモデルでは、文が複数ラウンドの修正のためにモデルに渡され、各ラウンドで徐々に少ないエラーでモデルを公開するため、シーケンスラベリングGECモデルは反復的なプロセスである。
伝統的なGECモデルは、一定の誤り率の文から学習する。
これを反復補正プロセスと結合すると、最終的なパフォーマンスに影響を与えるトレーニングと推論のミスマッチが発生する。
このミスマッチに対処するため,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤りラベル器からなるGAN型シーケンスラベリングモデルを提案する。
実際の誤差分布からサンプリングすることで、従来の合成GCCの誤差よりも誤差がより本物になり、上記のミスマッチを緩和し、より良いトレーニングを可能にします。
いくつかの評価ベンチマークの結果から,提案手法が有効であることを示し,従来のベースラインを改善した。
関連論文リスト
- Efficient and Interpretable Grammatical Error Correction with Mixture of Experts [33.748193858033346]
文法的誤り訂正のための混合専門家モデルMoECEを提案する。
本モデルでは,有効パラメータの3倍少ないT5-XLの性能を実現する。
論文 参考訳(メタデータ) (2024-10-30T23:27:54Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - From Spelling to Grammar: A New Framework for Chinese Grammatical Error
Correction [12.170714706174314]
中国語の文法的誤り訂正(CGEC)は、誤ったシーケンスから正しい文を生成することを目的としている。
本稿では,CGECタスクをスペル誤り訂正と文法的誤り訂正という2つのステップに分割する。
本稿では,スペル誤り訂正のためのゼロショット手法を提案する。
文法的誤り訂正に対処するため、ニューラルネットワークモデルを強化するために、部分音声特徴と意味クラス特徴を設計する。
論文 参考訳(メタデータ) (2022-11-03T07:30:09Z) - Judge a Sentence by Its Content to Generate Grammatical Errors [0.0]
文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-20T14:31:34Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。