論文の概要: Czech Grammar Error Correction with a Large and Diverse Corpus
- arxiv url: http://arxiv.org/abs/2201.05590v1
- Date: Fri, 14 Jan 2022 18:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:32:50.123734
- Title: Czech Grammar Error Correction with a Large and Diverse Corpus
- Title(参考訳): 大規模で多様なコーパスを用いたチェコ語の文法誤り訂正
- Authors: Jakub N\'aplava, Milan Straka, Jana Strakov\'a, Alexandr Rosen
- Abstract要約: 文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
- 参考スコア(独自算出の注目度): 64.94696028072698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a large and diverse Czech corpus annotated for grammatical error
correction (GEC) with the aim to contribute to the still scarce data resources
in this domain for languages other than English. The Grammar Error Correction
Corpus for Czech (GECCC) offers a variety of four domains, covering error
distributions ranging from high error density essays written by non-native
speakers, to website texts, where errors are expected to be much less common.
We compare several Czech GEC systems, including several Transformer-based ones,
setting a strong baseline to future research. Finally, we meta-evaluate common
GEC metrics against human judgements on our data. We make the new Czech GEC
corpus publicly available under the CC BY-SA 4.0 license at
http://hdl.handle.net/11234/1-4639 .
- Abstract(参考訳): 文法的誤り訂正のための注釈付きチェコ語コーパス(GEC)を導入し,英語以外の言語に対して,この領域ではまだ不足しているデータ資源に寄与することを目的とした。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイから、エラーがより一般的でないと思われるウェブサイトテキストまで、さまざまな4つのドメインを提供している。
チェコのgecシステムとトランスフォーマーベースのシステムを比較し,今後の研究に強いベースラインを設定した。
最後に、データ上の人的判断に対して、共通GCCメトリクスをメタ評価する。
新しいチェコのGECコーパスをCC BY-SA 4.0ライセンスでhttp://hdl.handle.net/11234/1-4639で公開しています。
関連論文リスト
- Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - RobustGEC: Robust Grammatical Error Correction Against Subtle Context
Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。
現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T08:33:23Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Diacritics Restoration using BERT with Analysis on Czech language [3.2729625923640278]
本稿では,コンテキスト適応型埋め込み,すなわちBERTに基づくダイアクリティカルリカバリのための新しいアーキテクチャを提案する。
チェコ語(チェコ語)について詳細な誤り解析を行い、高い評価基準を持つ形態学的に豊かな言語である。
論文 参考訳(メタデータ) (2021-05-24T16:58:27Z) - UA-GEC: Grammatical Error Correction and Fluency Corpus for the
Ukrainian Language [0.0]
これはウクライナ語のための最初の文法的誤り訂正コーパスです。
プロの証明リーダーがコーパスを訂正し、流血、文法、句読点、綴りに関する誤りを注釈した。
このコーパスはウクライナのGECシステムの開発と評価に使用できます。
論文 参考訳(メタデータ) (2021-03-31T11:18:36Z) - Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses [17.57265480823457]
我々は,英語話者が様々な習熟度で生成したWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースした。
ウェブサイトデータは、学習者のエッセイよりも文法的な誤りがはるかに少ない、一般的で重要なドメインである。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
論文 参考訳(メタデータ) (2020-10-15T07:52:01Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。