論文の概要: Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses
- arxiv url: http://arxiv.org/abs/2010.07574v1
- Date: Thu, 15 Oct 2020 07:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:52:23.234864
- Title: Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses
- Title(参考訳): 低誤差密度領域における文法的誤り訂正:新しいベンチマークと解析
- Authors: Simon Flachs, Oph\'elie Lacroix, Helen Yannakoudakis, Marek Rei,
Anders S{\o}gaard
- Abstract要約: 我々は,英語話者が様々な習熟度で生成したWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースした。
ウェブサイトデータは、学習者のエッセイよりも文法的な誤りがはるかに少ない、一般的で重要なドメインである。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
- 参考スコア(独自算出の注目度): 17.57265480823457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of grammatical error correction (GEC) systems has primarily
focused on essays written by non-native learners of English, which however is
only part of the full spectrum of GEC applications. We aim to broaden the
target domain of GEC and release CWEB, a new benchmark for GEC consisting of
website text generated by English speakers of varying levels of proficiency.
Website data is a common and important domain that contains far fewer
grammatical errors than learner essays, which we show presents a challenge to
state-of-the-art GEC systems. We demonstrate that a factor behind this is the
inability of systems to rely on a strong internal language model in low error
density domains. We hope this work shall facilitate the development of
open-domain GEC models that generalize to different topics and genres.
- Abstract(参考訳): 文法的誤り訂正(GEC)システムの評価は、主に英語の非ネイティブ学習者によるエッセイに焦点が当てられているが、これはGEC応用の完全なスペクトルの一部に過ぎない。
GECのターゲット領域を広げ、様々なレベルの英語話者が生成するWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースすることを目指している。
webサイトデータは、学習者エッセイよりもはるかに少ない文法的エラーを含む、一般的で重要なドメインであり、最先端のgecシステムへの挑戦を示す。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
本研究は,様々なトピックやジャンルに一般化したオープンドメインECCモデルの開発を促進することを願っている。
関連論文リスト
- A Simple Yet Effective Corpus Construction Framework for Indonesian Grammatical Error Correction [7.378963590826542]
低リソース言語でGECコーパスを構築するためのフレームワークを提案する。
具体的には、インドネシア語を研究言語として重視する。
提案手法を用いてインドネシアGECの評価コーパスを構築した。
論文 参考訳(メタデータ) (2024-10-28T08:44:56Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - RobustGEC: Robust Grammatical Error Correction Against Subtle Context
Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。
現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T08:33:23Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z) - Gender Bias and Universal Substitution Adversarial Attacks on
Grammatical Error Correction Systems for Automated Assessment [1.4213973379473654]
GECシステムはしばしば、評価とフィードバックの形式として、英語学習者の音声の書き起こしに使用される。
候補の入力文からGECシステムの文法的に訂正された出力文への編集回数は、候補の言語能力を示す。
本研究は、英語の非母語話者が現実的に、評価に使用されるECCシステムを騙すために使用できる、単純な普遍的置換対逆攻撃について検討する。
論文 参考訳(メタデータ) (2022-08-19T17:44:13Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。