論文の概要: Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation
- arxiv url: http://arxiv.org/abs/2210.14389v1
- Date: Tue, 25 Oct 2022 23:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:01:44.836036
- Title: Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation
- Title(参考訳): 韓国の文法的誤り訂正の標準化に向けて:データセットと注釈
- Authors: Soyoung Yoon, Sungjoon Park, Gyuwan Kim, Junhee Cho, Kihyo Park, Gyu
Tae Kim, Minjoon Seo and Alice Oh
- Abstract要約: 韓国語文法誤り訂正(GEC)の研究は、英語や中国語など他の主要言語と比較して限られている。
まず、さまざまなソースから3つのデータセットを収集し、幅広いエラータイプをカバーし、注釈付けします。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、パブリック統計GECシステム(Hanspell)よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 26.48270086631483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on Korean grammatical error correction (GEC) is limited compared to
other major languages such as English and Chinese. We attribute this
problematic circumstance to the lack of a carefully designed evaluation
benchmark for Korean. Thus, in this work, we first collect three datasets from
different sources (Kor-Lang8, Kor-Native, and Kor-Learner) to cover a wide
range of error types and annotate them using our newly proposed tool called
Korean Automatic Grammatical error Annotation System (KAGAS). KAGAS is a
carefully designed edit alignment & classification tool that considers the
nature of Korean on generating an alignment between a source sentence and a
target sentence, and identifies error types on each aligned edit. We also
present baseline models fine-tuned over our datasets. We show that the model
trained with our datasets significantly outperforms the public statistical GEC
system (Hanspell) on a wider range of error types, demonstrating the diversity
and usefulness of the datasets.
- Abstract(参考訳): 韓国語文法誤り訂正(GEC)の研究は、英語や中国語など他の主要言語と比較して限られている。
この問題は、慎重に設計された韓国評価ベンチマークの欠如によるものである。
そこで本研究では,まず異なるソース(Kor-Lang8,Kor-Native,Kor-Learner)から3つのデータセットを収集し,広範囲のエラータイプをカバーし,新たに提案したKAGAS(Korea Automatic Grammatical error Annotation System)を用いて注釈付けを行う。
KAGASは、ソース文とターゲット文のアライメントを生成する韓国語の性質を考慮し、各アライメント編集におけるエラータイプを識別する、慎重に設計された編集アライメントと分類ツールである。
また、データセット上で微調整されたベースラインモデルも提示します。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、パブリック統計GECシステム(Hanspell)よりも大幅に優れており、データセットの多様性と有用性を示している。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction [6.116341682577877]
近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。
文法的誤りを検出し,特定し,修正するための微粒なコーパスである FCGEC を提案する。
論文 参考訳(メタデータ) (2022-10-22T06:29:05Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - Learning How to Translate North Korean through South Korean [24.38451366384134]
韓国語と北朝鮮語はどちらも韓国語である。
既存の韓国語のNLPシステムは北朝鮮の入力を処理できない。
我々は、同等のコーパスを使用して、北朝鮮のNMTモデルのデータを作成する。
人間のアノテーションを使わずに、北朝鮮のバイリンガルデータによって訓練されたモデルが、北朝鮮の翻訳精度を大幅に向上させることができることを検証した。
論文 参考訳(メタデータ) (2022-01-27T01:21:29Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。