論文の概要: FlaCGEC: A Chinese Grammatical Error Correction Dataset with
Fine-grained Linguistic Annotation
- arxiv url: http://arxiv.org/abs/2311.04906v1
- Date: Tue, 26 Sep 2023 10:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 16:32:13.530099
- Title: FlaCGEC: A Chinese Grammatical Error Correction Dataset with
Fine-grained Linguistic Annotation
- Title(参考訳): FlaCGEC: 微粒な言語アノテーションを用いた中国語文法的誤り訂正データセット
- Authors: Hanyue Du, Yike Zhao, Qingyuan Tian, Jiani Wang, Lei Wang, Yunshi Lan,
Xuesong Lu
- Abstract要約: FlaCGECは、粒度の細かい言語アノテーションを備えた新しいCGECデータセットである。
中国語の専門家が定義した言語スキーマから生のコーパスを収集し,ルールを用いて文の編集を行い,手作業で生成したサンプルを精査する。
提案したFraCGECデータセットを用いて,様々な最先端CGEC手法の評価を行った。
- 参考スコア(独自算出の注目度): 11.421545095092815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Grammatical Error Correction (CGEC) has been attracting growing
attention from researchers recently. In spite of the fact that multiple CGEC
datasets have been developed to support the research, these datasets lack the
ability to provide a deep linguistic topology of grammar errors, which is
critical for interpreting and diagnosing CGEC approaches. To address this
limitation, we introduce FlaCGEC, which is a new CGEC dataset featured with
fine-grained linguistic annotation. Specifically, we collect raw corpus from
the linguistic schema defined by Chinese language experts, conduct edits on
sentences via rules, and refine generated samples manually, which results in
10k sentences with 78 instantiated grammar points and 3 types of edits. We
evaluate various cutting-edge CGEC methods on the proposed FlaCGEC dataset and
their unremarkable results indicate that this dataset is challenging in
covering a large range of grammatical errors. In addition, we also treat
FlaCGEC as a diagnostic dataset for testing generalization skills and conduct a
thorough evaluation of existing CGEC models.
- Abstract(参考訳): 中国の文法的誤り訂正(CGEC)は近年、研究者の注目を集めている。
この研究を支援するために複数のCGECデータセットが開発されたにもかかわらず、これらのデータセットは文法エラーの深い言語的トポロジーを提供する能力に欠けており、CGECアプローチの解釈と診断に不可欠である。
この制限に対処するため,粒度の細かい言語アノテーションを備えた新しいCGECデータセットであるFraCGECを導入する。
具体的には、中国語の専門家が定義した言語スキーマから生コーパスを収集し、規則による文の編集を行い、手動で生成したサンプルを精査し、78のインスタンス化文法点と3種類の編集を行う。
提案するflacgecデータセットにおける様々な最先端のcgec法を評価し,その識別不能な結果から,このデータセットは多種多様な文法的誤りをカバーするのに困難であることが示唆された。
さらに,一般化スキルをテストするための診断データセットとしてflacgecを扱い,既存のcgecモデルの徹底的な評価を行う。
関連論文リスト
- SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical
Error Correction [36.74272211767197]
本稿では,言語規則に基づく大規模CGEC学習コーパスの構築手法を提案する。
実世界のシナリオにおける中国語話者の誤りから完全に導かれる、挑戦的なCGECベンチマークを提案する。
論文 参考訳(メタデータ) (2022-10-19T10:20:39Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction [30.917993017459615]
本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。
このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
論文 参考訳(メタデータ) (2021-12-15T20:27:40Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。