論文の概要: FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2210.12364v1
- Date: Sat, 22 Oct 2022 06:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:00:49.445375
- Title: FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction
- Title(参考訳): FCGEC:中国語文法誤り訂正のための微粒コーパス
- Authors: Lvxiaowei Xu, Jianwang Wu, Jiawei Peng, Jiayu Fu, Ming Cai
- Abstract要約: 近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
- 参考スコア(独自算出の注目度): 6.116341682577877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammatical Error Correction (GEC) has been broadly applied in automatic
correction and proofreading system recently. However, it is still immature in
Chinese GEC due to limited high-quality data from native speakers in terms of
category and scale. In this paper, we present FCGEC, a fine-grained corpus to
detect, identify and correct the grammatical errors. FCGEC is a human-annotated
corpus with multiple references, consisting of 41,340 sentences collected
mainly from multi-choice questions in public school Chinese examinations.
Furthermore, we propose a Switch-Tagger-Generator (STG) baseline model to
correct the grammatical errors in low-resource settings. Compared to other GEC
benchmark models, experimental results illustrate that STG outperforms them on
our FCGEC. However, there exists a significant gap between benchmark models and
humans that encourages future models to bridge it.
- Abstract(参考訳): 近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
しかし、中国語のECCでは、カテゴリーやスケールの点で、ネイティブスピーカーの高品質なデータが少ないため、まだ未熟である。
本稿では, 文法的誤りを検出し, 同定し, 修正するための微粒なコーパスである FCGEC を提案する。
FCGECは、公立学校の中国人試験で主に複数の選択質問から収集された41,340の文からなる、複数の参照を持つ人称注釈コーパスである。
さらに,低リソース環境下での文法的誤りを修正するために,スイッチタガージェネレータ(STG)ベースラインモデルを提案する。
他のGECベンチマークモデルと比較すると、STGはFCGECよりも優れています。
しかし、ベンチマークモデルと人間の間には、将来のモデルに橋渡しを促す大きなギャップがある。
関連論文リスト
- Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - RobustGEC: Robust Grammatical Error Correction Against Subtle Context
Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。
現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T08:33:23Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses [17.57265480823457]
我々は,英語話者が様々な習熟度で生成したWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースした。
ウェブサイトデータは、学習者のエッセイよりも文法的な誤りがはるかに少ない、一般的で重要なドメインである。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
論文 参考訳(メタデータ) (2020-10-15T07:52:01Z) - Adversarial Grammatical Error Correction [2.132096006921048]
本稿では,ジェネレータ・ディスクリミネータ・フレームワークを用いた文法誤り訂正(GEC)に対する逆学習手法を提案する。
我々は、識別器とジェネレータの両方を並列テキストで事前訓練し、さらにポリシー勾配法を用いて微調整する。
FCE, CoNLL-14, BEA-19データセットによる実験結果から, Adversarial-GEC は NMT ベースのベースラインに比べて競争力のある GEC 品質を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-06T00:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。