論文の概要: Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical
Error Correction
- arxiv url: http://arxiv.org/abs/2210.10442v1
- Date: Wed, 19 Oct 2022 10:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:09:34.282124
- Title: Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical
Error Correction
- Title(参考訳): 中国語母語文法誤り訂正のための言語規則に基づくコーパス生成
- Authors: Shirong Ma, Yinghui Li, Rongyi Sun, Qingyu Zhou, Shulin Huang, Ding
Zhang, Li Yangning, Ruiyang Liu, Zhongli Li, Yunbo Cao, Haitao Zheng and Ying
Shen
- Abstract要約: 本稿では,言語規則に基づく大規模CGEC学習コーパスの構築手法を提案する。
実世界のシナリオにおける中国語話者の誤りから完全に導かれる、挑戦的なCGECベンチマークを提案する。
- 参考スコア(独自算出の注目度): 36.74272211767197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Grammatical Error Correction (CGEC) is both a challenging NLP task
and a common application in human daily life. Recently, many data-driven
approaches are proposed for the development of CGEC research. However, there
are two major limitations in the CGEC field: First, the lack of high-quality
annotated training corpora prevents the performance of existing CGEC models
from being significantly improved. Second, the grammatical errors in widely
used test sets are not made by native Chinese speakers, resulting in a
significant gap between the CGEC models and the real application. In this
paper, we propose a linguistic rules-based approach to construct large-scale
CGEC training corpora with automatically generated grammatical errors.
Additionally, we present a challenging CGEC benchmark derived entirely from
errors made by native Chinese speakers in real-world scenarios. Extensive
experiments and detailed analyses not only demonstrate that the training data
constructed by our method effectively improves the performance of CGEC models,
but also reflect that our benchmark is an excellent resource for further
development of the CGEC field.
- Abstract(参考訳): 中国語の文法的誤り訂正(CGEC)は、難易度の高いNLPタスクであり、人間の日常生活に共通の応用である。
近年、CGEC研究の発展に向け、多くのデータ駆動型アプローチが提案されている。
しかし、cgec分野には2つの大きな制限があり、第一に、高品質のアノテーテッドトレーニングコーパスの欠如により、既存のcgecモデルの性能が大幅に改善されない。
第二に、広く使われているテストセットの文法的誤りは、ネイティブな中国語話者によって作られていないため、CGECモデルと実際のアプリケーションの間に大きなギャップが生じる。
本稿では,自動生成した文法エラーを用いた大規模cgec訓練コーパスを構築するための言語規則に基づく手法を提案する。
さらに,実環境における中国語話者の誤りから得られたCGECベンチマークを提案する。
広範な実験と詳細な分析により,本手法が構築したトレーニングデータがcgecモデルの性能を効果的に向上するだけでなく,本ベンチマークがcgec分野のさらなる発展のための優れたリソースであることを示す。
関連論文リスト
- Robust ASR Error Correction with Conservative Data Filtering [15.833428810891427]
大規模言語モデルに基づく誤り訂正(EC)は,自動音声認識(ASR)システムの性能を向上させる新しい技術である。
本稿では,ECトレーニングデータが満足すべき2つの基本的な基準を提案する。
低品質のECペアを特定し、そのようなケースでは修正を行わないようにモデルを訓練する。
論文 参考訳(メタデータ) (2024-07-18T09:05:49Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - FlaCGEC: A Chinese Grammatical Error Correction Dataset with
Fine-grained Linguistic Annotation [11.421545095092815]
FlaCGECは、粒度の細かい言語アノテーションを備えた新しいCGECデータセットである。
中国語の専門家が定義した言語スキーマから生のコーパスを収集し,ルールを用いて文の編集を行い,手作業で生成したサンプルを精査する。
提案したFraCGECデータセットを用いて,様々な最先端CGEC手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-26T10:22:43Z) - Focus Is What You Need For Chinese Grammatical Error Correction [17.71297141482757]
これは非常に合理的な仮説であるとしても、この時代の主流モデルの知性には厳しすぎると我々は主張する。
CGECモデルのフォーカス能力を向上させるため,OneTargetと呼ばれる簡易かつ効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-23T10:44:50Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。