論文の概要: UA-GEC: Grammatical Error Correction and Fluency Corpus for the
Ukrainian Language
- arxiv url: http://arxiv.org/abs/2103.16997v1
- Date: Wed, 31 Mar 2021 11:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 00:04:43.043234
- Title: UA-GEC: Grammatical Error Correction and Fluency Corpus for the
Ukrainian Language
- Title(参考訳): UA-GEC:ウクライナ語の文法的誤り訂正と周波数コーパス
- Authors: Oleksiy Syvokon and Olena Nahorna
- Abstract要約: これはウクライナ語のための最初の文法的誤り訂正コーパスです。
プロの証明リーダーがコーパスを訂正し、流血、文法、句読点、綴りに関する誤りを注釈した。
このコーパスはウクライナのGECシステムの開発と評価に使用できます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a corpus professionally annotated for grammatical error correction
(GEC) and fluency edits in the Ukrainian language. To the best of our
knowledge, this is the first GEC corpus for the Ukrainian language. We
collected texts with errors (20,715 sentences) from a diverse pool of
contributors, including both native and non-native speakers. The data cover a
wide variety of writing domains, from text chats and essays to formal writing.
Professional proofreaders corrected and annotated the corpus for errors
relating to fluency, grammar, punctuation, and spelling. This corpus can be
used for developing and evaluating GEC systems in Ukrainian. More generally, it
can be used for researching multilingual and low-resource NLP, morphologically
rich languages, document-level GEC, and fluency correction. The corpus is
publicly available at https://github.com/grammarly/ua-gec
- Abstract(参考訳): ウクライナ語で文法的誤り訂正(GEC)と流布編集を専門に注釈付けしたコーパスを提示する。
我々の知る限りでは、これがウクライナ語のための最初のGECコーパスである。
ネイティブ話者と非ネイティブ話者の両方を含む、さまざまなコントリビューターからエラー(20,715文)のあるテキストを収集した。
このデータは、テキストチャットやエッセイから正式な執筆まで、さまざまなライティングドメインをカバーしている。
プロの証明リーダーがコーパスを訂正し、流血、文法、句読点、綴りに関する誤りを注釈した。
このコーパスはウクライナのECCシステムの開発と評価に使用することができる。
より一般的には、多言語および低リソースのNLP、形態的にリッチな言語、文書レベルのGEC、および周波数補正の研究に使用できる。
コーパスはhttps://github.com/grammarly/ua-gecで公開されている。
関連論文リスト
- A Language Model for Grammatical Error Correction in L2 Russian [0.3149883354098941]
文法的誤り訂正は自然言語処理の基本課題の1つである。
ロシア語では、ほとんどのスペルチェッカーは正確なタイポスや他の単純なエラーを高い精度で利用できるが、非ネイティブ(L2)文字に直面すると失敗することが多い。
本稿では,L2ロシア文字の誤り訂正を目的とした言語モデルを含むパイプラインを提案する。
論文 参考訳(メタデータ) (2023-07-04T09:50:13Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - YACLC: A Chinese Learner Corpus with Multidimensional Annotation [45.304130762057945]
大規模多次元アノテート中国語学習コーパスを構築した。
コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。
論文 参考訳(メタデータ) (2021-12-30T13:07:08Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。