In Grammatical Error Correction, systems are evaluated by the number of
errors they correct. However, no one has assessed whether all error types are
equally important. We provide and apply a method to quantify the importance of
different grammatical error types to humans. We show that some rare errors are
considered disturbing while other common ones are not. This affects possible
directions to improve both systems and their evaluation.
Department of Computer Science Hebrew University of Jerusalem ofir.shifman@mail.hu ji.ac.il
エルサレムのヘブライ大学コンピュータサイエンス学科
0.45
Omri Abend Department of Computer Science Hebrew University of Jerusalem omri.abend@mail.huji .ac.il
omriアセンド エルサレム大学 omri.abend@mail.huji .ac.il
0.52
2 2 0 2 y a M 1 1
2 2 0 2 y a m 1 1 である。
0.54
] L C . s c [ 1 v 0 3 7 5 0
]LC。 sc [ 1 v 0 3 7 5 0
0.30
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract In Grammatical Error Correction, systems are evaluated by the number of errors they correct.
概要 文法的誤り訂正では、システムは正しい誤りの数によって評価される。
0.58
However, no one has assessed whether all error types are equally important.
しかし、すべてのエラータイプが等しく重要であるかどうかを誰も評価していない。
0.57
We provide and apply a method to quantify the importance of different grammatical error types to humans.
ヒトに対する異なる文法的誤り型の重要性を定量化する手法を提案および適用する。
0.78
We show that some rare errors are considered disturbing while other common ones are not.
いくつかの稀なエラーは混乱していると見なされるが、他の一般的なエラーはそうではない。
0.43
This affects possible directions to improve both systems and their evaluation.1
これはシステムと評価の両方を改善するための可能な方向に影響する。
0.60
Introduction 1 Grammatical Error Correction (GEC) is the task of correcting erroneous human (mostly written; Siddharth et al , 2015) sentences.
はじめに 文法的誤り訂正法(英: Grammatical Error Correction, 1 Grammatical Error Correction, GEC)とは、誤記(主にSiddharth et al , 2015)を訂正する作業である。
0.60
Predominantly, the sentences are writings of non-natives (Wang et al , 2020).
典型的には、文は非先住民の著作である(Wang et al , 2020)。
0.53
The use of this correction could be quite diverse, it could help communication, educate (O’brien, 2015; Tsai et al , 2020), evaluate (Gamon et al , 2013), reduce language obstacles for learners (Wolfe et al , 2016) and more.2
この修正は、コミュニケーション、教育(o’brien, 2015; tsai et al , 2020)、評価(gamon et al , 2013)、学習者のための言語障害の軽減(wolfe et al , 2016)などに役立つ可能性がある。 訳抜け防止モード: この補正の使用は、非常に多様で、コミュニケーションに役立つ可能性がある。 educate (o'brien, 2015 ; tsai et al, 2020)。 評価(gamon et al, 2013)、学習者のための言語障害の軽減(wolfe et al, 2016)など。
0.84
In this work, we focus on the recipients of the grammatically erroneous text, rather than the writers.
本研究では,著者ではなく,文法的に誤った文章の受取人に焦点を当てる。
0.64
Doing so, we assess which types of errors are most important to correct.
そうすることで、どのタイプのエラーが修正に最も重要であるかを評価する。
0.62
We follow a simplifying assumption that some errors inherently disrupt communication more than others, regardless of the sentence context.
a linear predictor of the sentence score as a function of the amount of errors of each type (§4).
各タイプのエラーの量の関数としての文スコアの線形予測子(4)。
0.70
From this we can not only know which error types’ contribution is more important, without explicitly asking annotators about it, but also assess the contribution of each type to any typology of errors without further annotation.
Finally, computing the results on both the manual type system of NUCLE and automatic taxonomies, we find that some of the most frequent errors are of low importance and some infrequent ones are important, i.e., the errors which are most important to correct for humans and for current evaluation differ.
Thus, the emphasis in training is on the wrong types of errors.
したがって、トレーニングは間違ったタイプのエラーに重点を置いている。
0.72
2 Background Typologies of GEC error types date back to the early days of the field (Dale and Kilgarriff, 2011).
背景 GECエラータイプの分類は、フィールドの初期までさかのぼる(Dale and Kilgarriff, 2011)。
0.39
Assuming each error stand by itself and is independent from other errors, each error could be given a class.
各エラーがそれ自身に立ち、他のエラーとは独立していると仮定すると、各エラーはクラスを与えられる。
0.65
Following this assumption manual annotations of typologies arrived with every dataset (Dahlmeier et al , 2013; Shatz, 2020) differing between them and between languages (Rozovskaya and Roth, 2019; Lee et al , 2021).
この仮定に従って,すべてのデータセット (dahlmeier et al , 2013 , shatz, 2020) と言語 (rozovskaya and roth, 2019; lee et al , 2021) に手作業による型付けのアノテーションが到着した。 訳抜け防止モード: この仮定に従って、各データセット(Dahlmeier et al, 2013 ; Shatz, 2020 )がそれぞれ異なるタイプロジーのマニュアルアノテーションが到着した。 言語間(Rozovskaya と Roth, 2019)、Lee et al, 2021 ) .
0.89
Later, ERRANT proposed a method for automatically extracting errors from text and automatically annotating them with a set of rules (Bryant et al , 2017a).
その後、ERRANTはテキストからエラーを自動的に抽出し、ルールセットで自動的に注釈付けする手法を提案した(Bryant et al , 2017a)。
0.68
This allowed to use the same annotation for any dataset in English.
これにより、英語のどのデータセットにも同じアノテーションが使えるようになった。
0.57
Lately, SErCl (Choshen et al , 2020) proposed another typology, more finegrained and based on syntax.
最近、SErCl (Choshen et al , 2020) は、よりきめ細やかで構文に基づく別の型制を提案した。
0.67
It comes with an automatic extraction for most languages (depending on a part of speech tagger).
多くの言語(音声タグの一部に依存している)の自動抽出が付属している。
0.70
SERRANT (Choshen et al , 2021) combined the errors of ERRANT and SErCl to have a broader coverage, coming from
SERRANT (Choshen et al , 2021) は ERRANT と SErCl の誤差を結合して,より広範なカバレッジを実現する。
0.87
英語(論文から抽出)
日本語訳
スコア
SERRANT but use the meaningful rules for ERRANT categories.
SERRANTは、ERRANTカテゴリに意味のあるルールを使用する。
0.66
We do not give preferance to any of the methods and report results on each.
いずれの方法も優先せず、それぞれの結果を報告します。
0.56
In most evaluation and literature, edit types are considered of equal importance, for example the M 2 (Dahlmeier et al , 2013) scorer is based on errors corrected, regardless of their types.
ほとんどの評価や文献では、編集タイプは同等に重要であると考えられており、例えば、M2(Dahlmeier et al , 2013)スコアラーは、それらのタイプに関係なく修正されたエラーに基づいている。
0.66
There are works however that show that models (Choshen and Abend, 2018b) and metrics (Choshen and Abend, 2018a) do not perform equally well on all error types.
しかし、モデル(choshen and abend, 2018b)とメトリクス(choshen and abend, 2018a)がすべてのエラータイプで等しく機能しないことを示す研究もある。
0.70
Specifically, they are better on closed class types where given that a valid correction was made, the reference is likely to correct in the same way and not perform another valid correction.
We propose an ideal for GEC to pursue and a way to measure it.
我々は、GECが追求する理想とそれを測定する方法を提案する。
0.72
Another work that is similar to ours in spirit is Tetreault et al (2017), proposing to follow fluency rather that correct errors.
ours in spiritに類似した別の仕事として、tetreault et al (2017)があり、正しいエラーよりも流血に従うことを提案している。
0.62
In a sense, the most important errors to correct are those that most improve fluency of a text.
ある意味では、修正すべき最も重要なエラーは、テキストの流線型を最も改善するエラーである。
0.67
3 Annotation To get a reliable ranking of error importance we follow previous works’ methodology.
3注釈 エラーの重要性を信頼できるランク付けするために、私たちは以前の作業の方法論に従っています。
0.60
First, we do not ask annotators about grammaticality, as grammar in non-professionals is implicit and often even judged unimportant (Loewen et al , 2009).
まず、非専門分野の文法は暗黙的であり、しばしば重要でないと判断される(Loewen et al , 2009)。
0.57
Instead, we ask annotators the extent to which a text is bothersome, following Wolfe et al (2016); Graham et al (2015b).
代わりに、Wolfe et al (2016)、Graham et al (2015b) に続いて、テキストがどれほど厄介であるかを注釈者に尋ねる。
0.77
They found that impolite messages bothered job interviewers and to a lower extent so did ungrammatical writing.
彼らは、不当なメッセージはインタビュアーを悩ませ、低い範囲で非文法的な文章を書くことに気づいた。
0.48
However, impolite texts were undeservedly judged ungrammatical, showing judges mix between the two.
しかし、不規則な文章は非文法的に判断され、裁判官が両者を混同していることを示している。
0.42
We ask crowd annotators to directly assess the extent to which sentences need correction.
我々は,文の修正が必要な程度を直接評価するよう,群集に指示する。
0.62
We adapt the methodology of Graham et al (2016) for
私たちはGraham et al (2016)の方法論を適用します。
0.61
assessing fluency of a text to assess instead how bothering a text is.
テキストがいかに煩わしいかを評価するために、テキストの流動性を評価する。
0.64
Specifically, annotators were asked to move a slide to indicate how much they agree with the following: ”The English mistakes in the following text bother me (1 = it doesn’t bother me at all, 100 = it really bothers me)”.
特にアノテータは,スライドを移動して,彼らがどの程度同意しているかを示すように求められた。 ““the english mistakes in the following text bother me (1 = it’t bother me, 100 = it really bothers me)”。
0.86
All other details follow the original work.
その他の詳細はすべて原著に従っている。
0.57
We note that while we choose to follow common wording, other wordings may be acceptable and might even have slightly different results.
To allow filtering the data, each batch contains 3 types of sentences.
データのフィルタリングを可能にするために、各バッチは3種類の文を含む。
0.61
15 unique sentences which contain no mistakes.
誤りのない15の独特な文。
0.69
70 unique sentences with at least one error.
少なくとも1つのエラーがある70のユニークな文。
0.61
15 sentences which were sampled from a a pre-sampled set of 400 sentences.
プリサンプリングされた400文のセットから,15文をサンプリングした。
0.64
The latter were repeatedly shown in different batches.
後者は異なるバッチで繰り返し表示される。
0.67
The choice of 400 sentences was made to make sure a single annotator would not often see the same sentences and that we will have enough repetitions for each of the 400 to find outlying annotators.
3.1 Dataset We chose to annotate NUCLE (Dahlmeier et al , 2013) containing about 59K sentences.
3.1 データセット NUCLE (Dahlmeier et al , 2013) に約59Kの文を含む注釈を付けることにしました。
0.64
Out of which we separated sentences with and without errors to two groups.
そのうちの1つは、誤りのない文を2つのグループに分けた。
0.59
Additionally, we filtered out sentences with less than 7 words, or ones that contained one of the strings: http, &, [, ], *, ”, ; to reduce non-English sentences.
roughly corresponds to annotating each sentence with errors twice, plus multiple annotations of the 400 repetitive sets and about 8.7K annotations for grammatical sentences.
Annotators that took less than 350 seconds for 100 sentences were removed.
100文の注釈は350秒未満で削除された。
0.67
Removing about 5% of annotators (see Figure 1).
約5%のアノテーションを削除します(図1参照)。
0.67
This is expected to remove annotators who did not pay attention or mistakenly skipped a large number of sentences.
これは注意を払わず、誤って大量の文をスキップした注釈を除去することが期待されている。
0.58
Among the remaining annotators, we made sure each judged the grammatical sentences to be better than the erroneous ones.
残りの注釈者のうち,各文法文が誤用文より優れていると判断されることを確認した。
0.60
Under the hypothesis that ungrammatical sentences had a lower score, we made a t-test for each annotator.
非文法文の方がスコアが低いという仮説のもと,各注釈者に対してtテストを行った。
0.54
If the grammatical sentences did not have a significantly higher average sentence score than the ungrammatical (p < 0.05), we filtered out all the annotations made by the annotator.
Following Graham et al (2015a), correlation only took into account sentences with at least 15 responses as the average is noisy.
Graham et al (2015a) に続いて、相関は、平均がうるさいため、少なくとも15の応答を持つ文を考慮に入れた。
0.65
Annotators with strong negative correlations (> −0.4) were filtered out.
強い負の相関(> −0.4)を持つアノテーションを除去した。
0.61
Overall, these procedures filtered about 10% of the annotators.
全体として、これらの手順はアノテーションの約10%をフィルタリングした。
0.52
Furthermore, we found most annotators filtered in the previous stages had negative correlation, which validates this methodology, as the different filtering methods agree.
Raising the bars of either P or minimum time had diminishing gains in terms of finding negative correlation annotators.
Pまたは最小時間のバーの上昇は負相関アノテータの発見において利得を低下させた。
0.72
While the annotations still contain noise, trying to filter out more with harsher thresholds produced similar results (See §5) with more variance (due to less data).
The output weights can be understood as the contribution of each type to the sentence annoyance levels.
出力重みは、文のアノイアンスレベルに対する各タイプの寄与として理解することができる。
0.72
Note that in doing so, we assume a linear contribution of types.
注意すべきは、型が線形に寄与することを仮定することである。
0.53
Namely, that when multiple types appear or a single type appears more than once, their contribution is additive.
すなわち、複数の型が現れたり、1つの型が1回以上現れたりすると、その貢献は加算される。
0.65
Future work may consider more complex extrapolations with softer assumptions.
将来の研究は、よりソフトな仮定によるより複雑な外挿を考えるかもしれない。
0.42
Because the actual weights are hard to interpret, we focus on the ranks of each phenomena.
実際の重みは解釈が難しいので、それぞれの現象のランクに注目します。
0.57
In other words, we look to see who got the largest weight, the second largest and so on, rather than the actual distribution of weights that were assigned (we report those for completeness in App. A).
We extrapolate for each NUCLE type, for SErCl’s most frequent for ERRANT’s types and for ERRANT’s types without subcategorization to replacement additions and deletions.
types, 5 Results We present the ranking for SErCl in Fig 2, for ERRANT in Fig 3 (Fine grained with insertion deletion and modification in App. A) and for NUCLE in Fig 4.
So are orthography errors, unnecessarily added tokens, wrong determiner and other errors.
正書法エラー、不要な追加トークン、間違った決定子、その他のエラーなどです。
0.55
On the other side of the spectrum we can find missing tokens, inflection, morphology and others.
スペクトルの反対側では、欠落したトークン、屈折、形態学などを見つけることができる。
0.52
Several errors related to determiners are also low ranking.
決定要因に関するいくつかの誤りも低いランクである。
0.51
6 Discussion and Conclusion Most metrics disregard the error type, at least in principal (Choshen and Abend, 2018a, In practice errors are unintentionally weighted differently, but not by design;).
6 議論と結論 ほとんどのメトリクスは、少なくともプリンシパルではエラータイプを無視しています(Choshen and Abend, 2018a, In practice error are unintentionly weighted different, but not by design;)。
0.78
This has been criticized and difficulty of correction was suggested to address it (Gotou et al , 2020).
これは批判され、修正の難しさが指摘されている(Gotou et al , 2020)。
0.72
Our results show that not only some errors are more important to correct than others, those are not determined by frequency in the data nor in the difficulty to correct.
Determiners are extremely common and a closed class (Choshen and Abend, 2018b), making them more important to correct to gain high scores in metrics, but those errors are not considered very important by humans.
決定は極めて一般的であり、閉クラス(Choshen and Abend, 2018b)であるため、高いスコアを得るために修正することがより重要であるが、これらの誤りは人間にとってあまり重要ではないと考えられている。
0.61
Similarly, orthographic errors are very easy to correct, but they are considered very annoying and important to correct.
We also performed initial studies with weighting training spans by giving each token its weight by the importance of the error (non-error tokens weight is constant).
2020. Lingglewrite: a coaching system for essay writing.
2020. Lingglewrite:エッセイを書くためのコーチングシステム。
0.61
In ACL. Yu Wang, Yuelin Wang, J. Liu, and Zhuo Liu.
aclで Yu Wang, Yuelin Wang, J. Liu, Zhuo Liu
0.40
2020. A comprehensive survey of grammar error correction.
2020. 文法誤り訂正に関する総合的な調査
0.56
ArXiv, abs/2005.06600.
arxiv、abs/2005.06600。
0.52
Joanna Wolfe, Nisha Shanmugaraj, and Jaclyn Sipe.
Joanna Wolfe、Nisha Shanmugaraj、Jaclyn Sipe。
0.70
2016. Grammatical versus pragmatic error: Employer perceptions of nonnative and native english speakers.
2016. 文法的誤りと実用的誤り:非母語話者と母語話者の雇用者認識
0.56
Business and Professional Communication Quarterly, 79(4):397–415.
ビジネスおよびプロフェッショナルコミュニケーション四半期, 79(4):397–415。
0.78
Papers), pages 793–805, Vancouver, Canada.
カナダ、バンクーバー、793-805頁。
0.57
Association for Computational Linguistics. Leshem Choshen and Omri Abend.
計算言語学会会員。 leshem choshen と omri abend。
0.57
2018a. Automatic metric validation for grammatical error correction.
2018年。 文法的誤り訂正のための自動計量検証
0.67
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1372–1382, Melbourne, Australia.
2021. Serrant: a syntactic classifier for english grammatical error types.
2021. Serrant: 英文法エラー型のための構文分類器。
0.61
arXiv preprint arXiv:2104.02310.
arXiv preprint arXiv:2104.02310
0.36
Daniel Dahlmeier, Hwee Tou Ng, and Siew Mei Wu.
Daniel Dahlmeier, Hwee Tou Ng, Siew Mei Wu
0.32
2013. Building a large annotated corpus of learner English: The NUS corpus of learner English.
2013. 学習者英語の大きな注釈付きコーパスの構築:学習者英語のNUSコーパス。
0.57
In Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications, pages 22–31, Atlanta, Georgia.
第8回nlp革新的利用に関するワークショップの議事録では、ジョージア州アトランタの22-31ページが紹介されている。 訳抜け防止モード: 8th Workshop on Innovative Use of NLP for Building Educational Applications に参加して 22-31頁、ジョージア州アトランタ。
0.77
Association for Computational Linguistics. R. Dale and Adam Kilgarriff.
計算言語学会会員。 R. DaleとAdam Kilgarriff。
0.49
2011. Helping our own:
2011. 自力で支援します
0.49
The hoo 2011 pilot shared task.
hoo 2011のパイロットはタスクを共有した。
0.62
In ENLG. Michael Gamon, Martin Chodorow, Claudia Leacock, and Joel Tetreault.
ENLG所属。 Michael Gamon、Martin Chodorow、Claudia Leacock、Joel Tetreault。
0.53
2013. Grammatical error detection in automatic essay scoring and feedback.
2013. 自動エッセイスコアリングとフィードバックにおける文法的誤り検出
0.58
In Handbook of automated essay evaluation, pages 273–288.
自動エッセイ評価ハンドブック273-288頁。
0.56
Routledge. Takumi Gotou, Ryo Nagata, Masato Mita, and Kazuaki Hanawa.
Routledge 後藤内匠、永田良、三田正人、花輪一秋。
0.28
2020. Taking the correction difficulty into account in grammatical error correction evaluation.
2020. 文法的誤り訂正評価における補正困難を考慮した。
0.60
In Proceedings of the 28th International Conference on Computational Linguistics, pages 2085–2095.
第28回計算言語学国際会議では2085-2095頁。
0.69
Yvette Graham, Timothy Baldwin, Meghan Dowling, Maria Eskevich, Teresa Lynn, and L. Tounsi.
Yvette Graham, Timothy Baldwin, Meghan Dowling, Maria Eskevich, Teresa Lynn, L. Tounsi。
0.41
2016. Is all that glitters in mt quality estimation really gold standard.
2016. mtの品質評価は、すべて本当にゴールド標準なのでしょうか?
0.53
In COLING 2016.
2016年はコリング。
0.57
Yvette Graham, Timothy Baldwin, and Nitika Mathur.
Yvette Graham、Timothy Baldwin、Nitika Mathur。
0.33
2015a. Accurate evaluation of segment-level maIn Proceedings of the chine translation metrics.
2015年。 ニワトリ翻訳指標のセグメントレベルのmaIn Proceedingの精度評価
0.69
2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1183–1191.
2015 conference of the north american chapter of the association for computational linguistics: human language technologies, pages 1183–1191. 英語)
0.46
Yvette Graham, Timothy Baldwin, A. Moffat, and J. Zobel.
イヴェット・グラハム、ティモシー・ボールドウィン、A・モファット、J・ゾベル。
0.47
2015b. Can machine translation systems be evaluated by the crowd alone.
2015年。 機械翻訳システムは、群衆だけで評価できるのか?
0.66
Natural Language Engineering, 23:3 – 30.
自然言語工学、23:3 - 30。
0.83
英語(論文から抽出)
日本語訳
スコア
Figure 5: Importance ranks of each coarse-grained ERRANT types.
図5: 粗い粒度のERRANTタイプの重要性。
0.65
Std in error bars.
std エラーバー。
0.31
Figure 7: Importance weights of each coarse-grained ERRANT types.
図7: 粗い粒度のERRANTタイプの重要性。
0.66
Std in error bars.
std エラーバー。
0.31
Figure 6: Importance weights of each fine-grained ERRANT types.
図6: 各細粒度の誤植型の重み付け。
0.65
Std in error bars.
std エラーバー。
0.31
A Additional Graphs We present here the fine-grained ERRANT labels and the linear regression weights with their std.
追加グラフ ここでは、細粒度のERRANTラベルとそのstdによる線形回帰重みを示す。
0.78
Note that negative score does not necessarily means that this type is considered positive by annotators, as there is a baseline too (so it might only be less severe than other errors).