論文の概要: MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2204.10994v1
- Date: Sat, 23 Apr 2022 05:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 13:39:42.809720
- Title: MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction
- Title(参考訳): mucgec:中国語文法誤り訂正のためのマルチリファレンスマルチソース評価データセット
- Authors: Yue Zhang, Zhenghua Li, Zuyi Bao, Jiacheng Li, Bo Zhang, Chen Li, Fei
Huang, Min Zhang
- Abstract要約: MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
- 参考スコア(独自算出の注目度): 51.3754092853434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MuCGEC, a multi-reference multi-source evaluation dataset
for Chinese Grammatical Error Correction (CGEC), consisting of 7,063 sentences
collected from three different Chinese-as-a-Second-Language (CSL) learner
sources. Each sentence has been corrected by three annotators, and their
corrections are meticulously reviewed by an expert, resulting in 2.3 references
per sentence. We conduct experiments with two mainstream CGEC models, i.e., the
sequence-to-sequence (Seq2Seq) model and the sequence-to-edit (Seq2Edit) model,
both enhanced with large pretrained language models (PLMs), achieving
competitive benchmark performance on previous and our datasets. We also discuss
CGEC evaluation methodologies, including the effect of multiple references and
using a char-based metric. Our annotation guidelines, data, and code are
available at \url{https://github.com/HillZhang1999/MuCGEC}.
- Abstract(参考訳): 本稿では,中国語文法誤り訂正(cgec)のための多元多元評価データセットであるmucgecについて,3つの異なる中国語-as-a-second-language(csl)学習者から収集した7,063文からなる。
各文は3つの注釈によって訂正され、その修正は専門家によって細心の注意を払ってレビューされ、1文あたり2.3参照となる。
我々は2つの主要なCGECモデル(Seq2Seq)とSeq2Edit(Seq2Edit)モデル(Seq2Edit)で実験を行い、どちらも大きな事前学習言語モデル(PLM)で拡張され、前回および我々のデータセット上で競合ベンチマーク性能を達成する。
また、複数参照の効果やシャルベースメトリクスを用いたCGEC評価手法についても論じる。
私たちのアノテーションガイドライン、データ、コードは、 \url{https://github.com/HillZhang 1999/MuCGEC}で利用可能です。
関連論文リスト
- System Report for CCL24-Eval Task 7: Multi-Error Modeling and Fluency-Targeted Pre-training for Chinese Essay Evaluation [1.8856984887896766]
我々は,中国語学習者4Wコーパス上で,二分分類モデルと訓練された粗粒度モデルを用いて,細粒度エラーの予測を最適化した。
トラック2では、文毎に複数のエラー型を持つ擬似データセットを構築することにより、性能を向上した。
1位となったトラック3では,事前学習のための逆翻訳によって流速評価の擬似データを生成し,NSPベースの戦略を用いた。
論文 参考訳(メタデータ) (2024-07-11T06:17:08Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Improving Seq2Seq Grammatical Error Correction via Decoding
Interventions [40.52259641181596]
本稿では,外部批判を駆使して生成するトークンの妥当性を段階的に評価する統合デコード介入フレームワークを提案する。
我々は、事前訓練された言語モデル評論家と、段階的なターゲット側の文法的誤り検出批評家の2つのタイプの批判を発見し、調査する。
我々のフレームワークは一貫して強いベースラインを上回り、最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2023-10-23T03:36:37Z) - FlaCGEC: A Chinese Grammatical Error Correction Dataset with
Fine-grained Linguistic Annotation [11.421545095092815]
FlaCGECは、粒度の細かい言語アノテーションを備えた新しいCGECデータセットである。
中国語の専門家が定義した言語スキーマから生のコーパスを収集し,ルールを用いて文の編集を行い,手作業で生成したサンプルを精査する。
提案したFraCGECデータセットを用いて,様々な最先端CGEC手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-26T10:22:43Z) - Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical
Error Correction [36.74272211767197]
本稿では,言語規則に基づく大規模CGEC学習コーパスの構築手法を提案する。
実世界のシナリオにおける中国語話者の誤りから完全に導かれる、挑戦的なCGECベンチマークを提案する。
論文 参考訳(メタデータ) (2022-10-19T10:20:39Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。