論文の概要: Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses
- arxiv url: http://arxiv.org/abs/2010.07574v1
- Date: Thu, 15 Oct 2020 07:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:52:23.234864
- Title: Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses
- Title(参考訳): 低誤差密度領域における文法的誤り訂正:新しいベンチマークと解析
- Authors: Simon Flachs, Oph\'elie Lacroix, Helen Yannakoudakis, Marek Rei,
Anders S{\o}gaard
- Abstract要約: 我々は,英語話者が様々な習熟度で生成したWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースした。
ウェブサイトデータは、学習者のエッセイよりも文法的な誤りがはるかに少ない、一般的で重要なドメインである。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
- 参考スコア(独自算出の注目度): 17.57265480823457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of grammatical error correction (GEC) systems has primarily
focused on essays written by non-native learners of English, which however is
only part of the full spectrum of GEC applications. We aim to broaden the
target domain of GEC and release CWEB, a new benchmark for GEC consisting of
website text generated by English speakers of varying levels of proficiency.
Website data is a common and important domain that contains far fewer
grammatical errors than learner essays, which we show presents a challenge to
state-of-the-art GEC systems. We demonstrate that a factor behind this is the
inability of systems to rely on a strong internal language model in low error
density domains. We hope this work shall facilitate the development of
open-domain GEC models that generalize to different topics and genres.
- Abstract(参考訳): 文法的誤り訂正(GEC)システムの評価は、主に英語の非ネイティブ学習者によるエッセイに焦点が当てられているが、これはGEC応用の完全なスペクトルの一部に過ぎない。
GECのターゲット領域を広げ、様々なレベルの英語話者が生成するWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースすることを目指している。
webサイトデータは、学習者エッセイよりもはるかに少ない文法的エラーを含む、一般的で重要なドメインであり、最先端のgecシステムへの挑戦を示す。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
本研究は,様々なトピックやジャンルに一般化したオープンドメインECCモデルの開発を促進することを願っている。
関連論文リスト
- RobustGEC: Robust Grammatical Error Correction Against Subtle Context
Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。
現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T08:33:23Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - A BERT-based Unsupervised Grammatical Error Correction Framework [9.431453382607845]
文法的誤り訂正(GEC)は自然言語処理技術の課題である。
低リソース言語では、言語モデルスコアリングに基づく現在の教師なしGCCがよく機能する。
本研究では,BERT をベースとした非教師付き GEC フレームワークを提案し,GEC をマルチクラス分類タスクとみなす。
論文 参考訳(メタデータ) (2023-03-30T13:29:49Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z) - Gender Bias and Universal Substitution Adversarial Attacks on
Grammatical Error Correction Systems for Automated Assessment [1.4213973379473654]
GECシステムはしばしば、評価とフィードバックの形式として、英語学習者の音声の書き起こしに使用される。
候補の入力文からGECシステムの文法的に訂正された出力文への編集回数は、候補の言語能力を示す。
本研究は、英語の非母語話者が現実的に、評価に使用されるECCシステムを騙すために使用できる、単純な普遍的置換対逆攻撃について検討する。
論文 参考訳(メタデータ) (2022-08-19T17:44:13Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Do Grammatical Error Correction Models Realize Grammatical
Generalization? [8.569720582920416]
本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。
現在の標準変換器ベースGECモデルでは, 簡単な設定でも文法的一般化が得られないことがわかった。
論文 参考訳(メタデータ) (2021-06-06T04:59:29Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。