論文の概要: CL$^2$GEC: A Multi-Discipline Benchmark for Continual Learning in Chinese Literature Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2509.13672v1
- Date: Wed, 17 Sep 2025 03:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.707988
- Title: CL$^2$GEC: A Multi-Discipline Benchmark for Continual Learning in Chinese Literature Grammatical Error Correction
- Title(参考訳): CL$^2$GEC:中国語の文法的誤り訂正における連続学習のための多分野ベンチマーク
- Authors: Shang Qin, Jingheng Ye, Yinghui Li, Hai-Tao Zheng, Qi Li, Jinxiao Shan, Zhixing Li, Hong-Gee Kim,
- Abstract要約: CL$2$GECは、中国文学における文法的誤り訂正のための最初の連続学習ベンチマークである。
私たちのベンチマークには、10の分野にまたがる1万の人文が含まれています。
逐次チューニング,パラメータ効率適応,および4つの代表CLアルゴリズムによる大規模言語モデルの評価を行った。
- 参考スコア(独自算出の注目度): 28.004597594108514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for automated writing assistance in diverse academic domains highlights the need for robust Chinese Grammatical Error Correction (CGEC) systems that can adapt across disciplines. However, existing CGEC research largely lacks dedicated benchmarks for multi-disciplinary academic writing, overlooking continual learning (CL) as a promising solution to handle domain-specific linguistic variation and prevent catastrophic forgetting. To fill this crucial gap, we introduce CL$^2$GEC, the first Continual Learning benchmark for Chinese Literature Grammatical Error Correction, designed to evaluate adaptive CGEC across multiple academic fields. Our benchmark includes 10,000 human-annotated sentences spanning 10 disciplines, each exhibiting distinct linguistic styles and error patterns. CL$^2$GEC focuses on evaluating grammatical error correction in a continual learning setting, simulating sequential exposure to diverse academic disciplines to reflect real-world editorial dynamics. We evaluate large language models under sequential tuning, parameter-efficient adaptation, and four representative CL algorithms, using both standard GEC metrics and continual learning metrics adapted to task-level variation. Experimental results reveal that regularization-based methods mitigate forgetting more effectively than replay-based or naive sequential approaches. Our benchmark provides a rigorous foundation for future research in adaptive grammatical error correction across diverse academic domains.
- Abstract(参考訳): 多様な学術領域における自動筆記支援の需要の高まりは、規律を越えて適応できる堅牢な中国語文法誤り訂正(CGEC)システムの必要性を浮き彫りにしている。
しかし、既存のCGEC研究は、ドメイン固有の言語変化に対処し、破滅的な忘れ込みを防ぐための有望な解決策として継続学習(CL)を見越して、多分野の学術著作のための専用のベンチマークを欠いている。
この重要なギャップを埋めるために,中国文学における文法的誤り訂正のための連続学習ベンチマークCL$^2$GECを導入する。
私たちのベンチマークには、10の分野にまたがる1万の人文が含まれており、それぞれが異なる言語スタイルとエラーパターンを示しています。
CL$^2$GECは、文法的誤り訂正を連続的な学習環境で評価することに焦点を当て、現実世界の編集力学を反映する様々な学問分野への逐次的露出をシミュレートする。
タスクレベルの変動に適応した標準GEC指標と連続学習指標の両方を用いて、逐次チューニング、パラメータ効率適応、および4つの代表CLアルゴリズムによる大規模言語モデルの評価を行った。
実験結果から、正規化に基づく手法は、リプレイベースやナイーブなシーケンシャルアプローチよりも、忘れを効果的に軽減することがわかった。
我々のベンチマークは、様々な学術領域にまたがる適応文法的誤り訂正の今後の研究のための厳格な基礎を提供する。
関連論文リスト
- COLA-GEC: A Bidirectional Framework for Enhancing Grammatical Acceptability and Error Correction [2.631955426232593]
本稿では,相互知識伝達により両タスクを増強する新しい双方向フレームワークであるCOLA-GECを紹介する。
まず、GECデータセットを用いて文法的受容性モデルを拡張し、複数の言語間での性能を大幅に改善する。
第2に、動的損失関数を用いてGECモデルトレーニングに文法的受容性信号を統合することにより、文法的に許容できる出力に対する補正を効果的に導く。
論文 参考訳(メタデータ) (2025-07-16T03:29:05Z) - Chinese Grammatical Error Correction: A Survey [2.6914312267666705]
中国語の文法的誤り訂正(CGEC)は自然言語処理において重要な課題である。
CGECは、第二言語 (L2) とネイティブ (L1) の両方における自動筆記支援の需要の増加に対処している。
本調査は、データセット、アノテーションスキーム、評価手法、システム進歩など、CGEC研究の総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-04-01T17:14:50Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Improving Seq2Seq Grammatical Error Correction via Decoding
Interventions [40.52259641181596]
本稿では,外部批判を駆使して生成するトークンの妥当性を段階的に評価する統合デコード介入フレームワークを提案する。
我々は、事前訓練された言語モデル評論家と、段階的なターゲット側の文法的誤り検出批評家の2つのタイプの批判を発見し、調査する。
我々のフレームワークは一貫して強いベースラインを上回り、最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2023-10-23T03:36:37Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical
Error Correction [36.74272211767197]
本稿では,言語規則に基づく大規模CGEC学習コーパスの構築手法を提案する。
実世界のシナリオにおける中国語話者の誤りから完全に導かれる、挑戦的なCGECベンチマークを提案する。
論文 参考訳(メタデータ) (2022-10-19T10:20:39Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。