論文の概要、ライセンス

# (参考訳) 文法エラーは頻度が高いもの、重要なもの [全文訳有]

Some Grammatical Errors are Frequent, Others are Important ( http://arxiv.org/abs/2205.05730v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Ofir Shifman, Omri Abend(参考訳) 文法的誤り訂正では、システムは正しい誤りの数によって評価される。 しかし、すべてのエラータイプが等しく重要であるかどうかを誰も評価していない。 ヒトに対する異なる文法的誤り型の重要性を定量化する手法を提案および適用する。 いくつかの稀なエラーは混乱していると見なされるが、他の一般的なエラーはそうではない。 これはシステムと評価の両方を改善するための可能な方向に影響する。

In Grammatical Error Correction, systems are evaluated by the number of errors they correct. However, no one has assessed whether all error types are equally important. We provide and apply a method to quantify the importance of different grammatical error types to humans. We show that some rare errors are considered disturbing while other common ones are not. This affects possible directions to improve both systems and their evaluation.
公開日: Wed, 11 May 2022 18:59:20 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Some Grammatical Errors are Frequent, Others are Important 文法エラーは頻度が高いもの、重要なもの 0.67
Leshem Choshen レシェム・チョシェン(Leshem Choshen) 0.32
Department of Computer Science Hebrew University of Jerusalem leshem.choshen@mail. huji.ac.il エルサレム・ヘブライ大学計算機科学科 エルサレム大学 leshem.choshen@mail. huji.ac.il 0.49
Ofir Shifman Ofir Schäfman 0.24
Department of Computer Science Hebrew University of Jerusalem ofir.shifman@mail.hu ji.ac.il エルサレムのヘブライ大学コンピュータサイエンス学科 0.45
Omri Abend Department of Computer Science Hebrew University of Jerusalem omri.abend@mail.huji .ac.il omriアセンド エルサレム大学 omri.abend@mail.huji .ac.il 0.52
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] L C . s c [ 1 v 0 3 7 5 0 ]LC。 sc [ 1 v 0 3 7 5 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract In Grammatical Error Correction, systems are evaluated by the number of errors they correct. 概要 文法的誤り訂正では、システムは正しい誤りの数によって評価される。 0.58
However, no one has assessed whether all error types are equally important. しかし、すべてのエラータイプが等しく重要であるかどうかを誰も評価していない。 0.57
We provide and apply a method to quantify the importance of different grammatical error types to humans. ヒトに対する異なる文法的誤り型の重要性を定量化する手法を提案および適用する。 0.78
We show that some rare errors are considered disturbing while other common ones are not. いくつかの稀なエラーは混乱していると見なされるが、他の一般的なエラーはそうではない。 0.43
This affects possible directions to improve both systems and their evaluation.1 これはシステムと評価の両方を改善するための可能な方向に影響する。 0.60
Introduction 1 Grammatical Error Correction (GEC) is the task of correcting erroneous human (mostly written; Siddharth et al , 2015) sentences. はじめに 文法的誤り訂正法(英: Grammatical Error Correction, 1 Grammatical Error Correction, GEC)とは、誤記(主にSiddharth et al , 2015)を訂正する作業である。 0.60
Predominantly, the sentences are writings of non-natives (Wang et al , 2020). 典型的には、文は非先住民の著作である(Wang et al , 2020)。 0.53
The use of this correction could be quite diverse, it could help communication, educate (O’brien, 2015; Tsai et al , 2020), evaluate (Gamon et al , 2013), reduce language obstacles for learners (Wolfe et al , 2016) and more.2 この修正は、コミュニケーション、教育(o’brien, 2015; tsai et al , 2020)、評価(gamon et al , 2013)、学習者のための言語障害の軽減(wolfe et al , 2016)などに役立つ可能性がある。
訳抜け防止モード: この補正の使用は、非常に多様で、コミュニケーションに役立つ可能性がある。 educate (o'brien, 2015 ; tsai et al, 2020)。 評価(gamon et al, 2013)、学習者のための言語障害の軽減(wolfe et al, 2016)など。
0.84
In this work, we focus on the recipients of the grammatically erroneous text, rather than the writers. 本研究では,著者ではなく,文法的に誤った文章の受取人に焦点を当てる。 0.64
Doing so, we assess which types of errors are most important to correct. そうすることで、どのタイプのエラーが修正に最も重要であるかを評価する。 0.62
We follow a simplifying assumption that some errors inherently disrupt communication more than others, regardless of the sentence context. 我々は、文の文脈に関係なく、ある誤りが本質的に他のものよりもコミュニケーションを妨げているという単純な仮定に従う。
訳抜け防止モード: 私たちは単純化された仮定に従います。 いくつかの誤りは 文の文脈に関係なく コミュニケーションを乱す
0.62
Under this assumption we ask native speakers to express their preference in partially erroneous sentences. この仮定の下で、我々は母語話者に、部分的に誤った文で彼らの好みを表現するよう依頼する。
訳抜け防止モード: この仮定の下でネイティブスピーカーに尋ねる 部分的に誤った文で 好みを表現します
0.58
We manually annotate NUCLE (Dahlmeier et al , 2013) erroneous sentences to find which ones are more crucial to correct (§3). 我々は, NUCLE (Dahlmeier et al , 2013) の誤文を手動で注釈付けし, どちらがより重要かを求める。 0.71
We then extrapolate the contribution of each type of error to the assessment of sentence correctness. 次に、各種類の誤りの寄与を文の正確性の評価に例示する。 0.69
Specifically, we train 1All code and annotations are found in https:// 特に私たちは 1 コードとアノテーションはすべて https:// 0.56
github.com/borgr/GEC _BOTHER github.com/borgr/GEC _BOTHER 0.12
2All code to replicate as well as the gathered data could be found in https://github.com/b orgr/GEC_ BOTHER 2 収集したデータと同様に複製するすべてのコードは、https://github.com/b orgr/gec_ botherにある。 0.53
a linear predictor of the sentence score as a function of the amount of errors of each type (§4). 各タイプのエラーの量の関数としての文スコアの線形予測子(4)。 0.70
From this we can not only know which error types’ contribution is more important, without explicitly asking annotators about it, but also assess the contribution of each type to any typology of errors without further annotation. このことから、アノテータに明示的に尋ねることなく、どのエラータイプのコントリビューションが重要かを知ることができるだけでなく、追加のアノテーションなしでエラーのタイプに対して各タイプのコントリビューションを評価することもできる。 0.65
Finally, computing the results on both the manual type system of NUCLE and automatic taxonomies, we find that some of the most frequent errors are of low importance and some infrequent ones are important, i.e., the errors which are most important to correct for humans and for current evaluation differ. 最後に,手動型システムと自動分類法の両方の結果を計算した結果,最も頻繁な誤りのいくつかは重要度が低いこと,不適切なエラーが重要であること,すなわち,人間にとって訂正し,現在の評価のために最も重要な誤りが異なることが判明した。 0.76
Similarly, loss is implicitly weighted by frequency, but in this case frequency and importance differ. 同様に、損失は周波数によって暗黙的に重み付けされるが、この場合は周波数と重要性が異なる。
訳抜け防止モード: 同様に、損失は周波数によって暗黙的に重み付けされる。 しかしこの場合 頻度と重要性は異なります
0.69
Thus, the emphasis in training is on the wrong types of errors. したがって、トレーニングは間違ったタイプのエラーに重点を置いている。 0.72
2 Background Typologies of GEC error types date back to the early days of the field (Dale and Kilgarriff, 2011). 背景 GECエラータイプの分類は、フィールドの初期までさかのぼる(Dale and Kilgarriff, 2011)。 0.39
Assuming each error stand by itself and is independent from other errors, each error could be given a class. 各エラーがそれ自身に立ち、他のエラーとは独立していると仮定すると、各エラーはクラスを与えられる。 0.65
Following this assumption manual annotations of typologies arrived with every dataset (Dahlmeier et al , 2013; Shatz, 2020) differing between them and between languages (Rozovskaya and Roth, 2019; Lee et al , 2021). この仮定に従って,すべてのデータセット (dahlmeier et al , 2013 , shatz, 2020) と言語 (rozovskaya and roth, 2019; lee et al , 2021) に手作業による型付けのアノテーションが到着した。
訳抜け防止モード: この仮定に従って、各データセット(Dahlmeier et al, 2013 ; Shatz, 2020 )がそれぞれ異なるタイプロジーのマニュアルアノテーションが到着した。 言語間(Rozovskaya と Roth, 2019)、Lee et al, 2021 ) .
0.89
Later, ERRANT proposed a method for automatically extracting errors from text and automatically annotating them with a set of rules (Bryant et al , 2017a). その後、ERRANTはテキストからエラーを自動的に抽出し、ルールセットで自動的に注釈付けする手法を提案した(Bryant et al , 2017a)。 0.68
This allowed to use the same annotation for any dataset in English. これにより、英語のどのデータセットにも同じアノテーションが使えるようになった。 0.57
Lately, SErCl (Choshen et al , 2020) proposed another typology, more finegrained and based on syntax. 最近、SErCl (Choshen et al , 2020) は、よりきめ細やかで構文に基づく別の型制を提案した。 0.67
It comes with an automatic extraction for most languages (depending on a part of speech tagger). 多くの言語(音声タグの一部に依存している)の自動抽出が付属している。 0.70
SERRANT (Choshen et al , 2021) combined the errors of ERRANT and SErCl to have a broader coverage, coming from SERRANT (Choshen et al , 2021) は ERRANT と SErCl の誤差を結合して,より広範なカバレッジを実現する。 0.87
英語(論文から抽出)日本語訳スコア
SERRANT but use the meaningful rules for ERRANT categories. SERRANTは、ERRANTカテゴリに意味のあるルールを使用する。 0.66
We do not give preferance to any of the methods and report results on each. いずれの方法も優先せず、それぞれの結果を報告します。 0.56
In most evaluation and literature, edit types are considered of equal importance, for example the M 2 (Dahlmeier et al , 2013) scorer is based on errors corrected, regardless of their types. ほとんどの評価や文献では、編集タイプは同等に重要であると考えられており、例えば、M2(Dahlmeier et al , 2013)スコアラーは、それらのタイプに関係なく修正されたエラーに基づいている。 0.66
There are works however that show that models (Choshen and Abend, 2018b) and metrics (Choshen and Abend, 2018a) do not perform equally well on all error types. しかし、モデル(choshen and abend, 2018b)とメトリクス(choshen and abend, 2018a)がすべてのエラータイプで等しく機能しないことを示す研究もある。 0.70
Specifically, they are better on closed class types where given that a valid correction was made, the reference is likely to correct in the same way and not perform another valid correction. 具体的には、有効な修正がなされた場合、参照が同じ方法で修正され、別の有効な修正が行われないような、閉じたクラスタイプの方がよい。 0.70
Frequent types are also better addressed by learnt models, understandably. 頻繁な型は、理解可能な学習モデルによっても対処される。 0.57
An exception to the above is Gotou et al (2020) that focuses on the most difficult types to correct. 上記の例外は gotou et al (2020) であり、修正する最も難しい型に焦点を当てている。 0.77
This is close in spirit to our work and valuable in itself. これは我々の仕事の精神に近く、それ自体に価値がある。 0.67
Knowing what is difficult to correct, as they suggest has merits. 修正が難しいことを知ることは、彼らが提案するとおり、メリットがある。 0.47
This knowledge may allow building a curriculum and highlight model failures. この知識はカリキュラムの構築とモデル失敗のハイライトを可能にする。 0.68
Still, we see our question as a more central one to the field, one that may shape the focus of future contributions for both models and evaluation. それでも、私たちの質問は、モデルと評価の両方に対する将来の貢献の焦点を形作る、この分野におけるより中心的な問題だと考えています。 0.64
Difficulty to learn may change with technology, but what is perceived important to pursue will not. 学ぶことの難しさは技術によって変わるかもしれないが、追求する上で重要なのはそうではない。
訳抜け防止モード: 学習の難しさは技術によって変わるかもしれない。 しかし 追求する上で重要なのは
0.67
We propose an ideal for GEC to pursue and a way to measure it. 我々は、GECが追求する理想とそれを測定する方法を提案する。 0.72
Another work that is similar to ours in spirit is Tetreault et al (2017), proposing to follow fluency rather that correct errors. ours in spiritに類似した別の仕事として、tetreault et al (2017)があり、正しいエラーよりも流血に従うことを提案している。 0.62
In a sense, the most important errors to correct are those that most improve fluency of a text. ある意味では、修正すべき最も重要なエラーは、テキストの流線型を最も改善するエラーである。 0.67
3 Annotation To get a reliable ranking of error importance we follow previous works’ methodology. 3注釈 エラーの重要性を信頼できるランク付けするために、私たちは以前の作業の方法論に従っています。 0.60
First, we do not ask annotators about grammaticality, as grammar in non-professionals is implicit and often even judged unimportant (Loewen et al , 2009). まず、非専門分野の文法は暗黙的であり、しばしば重要でないと判断される(Loewen et al , 2009)。 0.57
Instead, we ask annotators the extent to which a text is bothersome, following Wolfe et al (2016); Graham et al (2015b). 代わりに、Wolfe et al (2016)、Graham et al (2015b) に続いて、テキストがどれほど厄介であるかを注釈者に尋ねる。 0.77
They found that impolite messages bothered job interviewers and to a lower extent so did ungrammatical writing. 彼らは、不当なメッセージはインタビュアーを悩ませ、低い範囲で非文法的な文章を書くことに気づいた。 0.48
However, impolite texts were undeservedly judged ungrammatical, showing judges mix between the two. しかし、不規則な文章は非文法的に判断され、裁判官が両者を混同していることを示している。 0.42
We ask crowd annotators to directly assess the extent to which sentences need correction. 我々は,文の修正が必要な程度を直接評価するよう,群集に指示する。 0.62
We adapt the methodology of Graham et al (2016) for 私たちはGraham et al (2016)の方法論を適用します。 0.61
assessing fluency of a text to assess instead how bothering a text is. テキストがいかに煩わしいかを評価するために、テキストの流動性を評価する。 0.64
Specifically, annotators were asked to move a slide to indicate how much they agree with the following: ”The English mistakes in the following text bother me (1 = it doesn’t bother me at all, 100 = it really bothers me)”. 特にアノテータは,スライドを移動して,彼らがどの程度同意しているかを示すように求められた。 ““the english mistakes in the following text bother me (1 = it’t bother me, 100 = it really bothers me)”。 0.86
All other details follow the original work. その他の詳細はすべて原著に従っている。 0.57
We note that while we choose to follow common wording, other wordings may be acceptable and might even have slightly different results. 一般的な言い回しに従おうとするが、他の言い回しは受け入れられる可能性があり、わずかに異なる結果が得られるかもしれないことに留意する。
訳抜け防止モード: 私たちは共通の言葉に 従うことを選んだが 他の言葉は受け入れられるかもしれない 結果も少し違うかもしれません
0.58
For example, framing the question in terms of the context in which the sentence is written may produce different results. 例えば、文章が書かれた文脈の観点で質問をフレーミングすることは、異なる結果を生み出す可能性がある。 0.64
A sentence may be harshly judged in an academic writing but not in an email. 文章は学術的な文章では厳しく判断されるが、メールでは判断されない。 0.55
Every batch of sentences sent to the crowd contained 100 sentences ensuring that each annotator would produce at least 100 annotations. 群衆に送られた各文には100の文が含まれており、各アノテーションは少なくとも100のアノテーションを生成する。 0.62
Only annotators from the United States with high (95%¿) acceptance rate and that reported they were English natives were accepted. アメリカ合衆国出身のアノテーターのみが、高い(95%)受け入れ率を持ち、イングランド原住民であると報告した。 0.67
This is to reduce noise due to faulty judgments and disagreements due to different countries of origin (e g , native Australian citizens). これは、起源の異なる国(例えば、ネイティブ・オーストラリア市民)による不適切な判断や不一致による騒音の低減である。 0.73
Annotators were given 0.5$ per batch, 3 and their answers were normalized to follow a standard normal distribution (henceforth Z-score). アノテーションは1バッチあたり0.5ドル、解答は標準正規分布に従うように正規化された(以下Zスコア)。 0.63
To allow filtering the data, each batch contains 3 types of sentences. データのフィルタリングを可能にするために、各バッチは3種類の文を含む。 0.61
15 unique sentences which contain no mistakes. 誤りのない15の独特な文。 0.69
70 unique sentences with at least one error. 少なくとも1つのエラーがある70のユニークな文。 0.61
15 sentences which were sampled from a a pre-sampled set of 400 sentences. プリサンプリングされた400文のセットから,15文をサンプリングした。 0.64
The latter were repeatedly shown in different batches. 後者は異なるバッチで繰り返し表示される。 0.67
The choice of 400 sentences was made to make sure a single annotator would not often see the same sentences and that we will have enough repetitions for each of the 400 to find outlying annotators. 400文の選択は、1つのアノテータが同じ文をしばしば見ないようにし、それぞれのアノテータを見つけ出すのに十分な繰り返しを得るために行われた。 0.66
3.1 Dataset We chose to annotate NUCLE (Dahlmeier et al , 2013) containing about 59K sentences. 3.1 データセット NUCLE (Dahlmeier et al , 2013) に約59Kの文を含む注釈を付けることにしました。 0.64
Out of which we separated sentences with and without errors to two groups. そのうちの1つは、誤りのない文を2つのグループに分けた。 0.59
Additionally, we filtered out sentences with less than 7 words, or ones that contained one of the strings: http, &, [, ], *, ”, ; to reduce non-English sentences. さらに,7単語未満の文,あるいは文字列の1つを含む文,例えばhttp, &, [, ], *, ”, をフィルタリングし,非英語の文を減らした。 0.63
We also normalized spaces, deleting spaces after ) or before (, ! また、空間の正規化、 ) 以降の空間の削除、あるいは (, ! 0.74
, %, . , $, / and a comma (,). , %, . , $, / および a comma (,) である。 0.52
We sent 58K sentences for annotation, which 58kの文を注釈として送りました 0.57
3The payment is not high, but by personal communication with the authors of Direct Assessment, high payment lures fraudulent annotators. 3 支払い額は高くないが、直接評価の著者との個人的なコミュニケーションにより、高額支払いは不正な注釈を付ける。 0.60
Moreover, annotating the whole of NUCLE took less than two days, indicating that the payment was not deemed as low by the crowd annotators. さらに、NUCLE全体を注釈づけるのに2日もかからず、観客のアノテーターは支払いが低かったとは考えていなかった。 0.62
英語(論文から抽出)日本語訳スコア
roughly corresponds to annotating each sentence with errors twice, plus multiple annotations of the 400 repetitive sets and about 8.7K annotations for grammatical sentences. 概して、各文に2回エラーを付加し、400の反復集合の複数のアノテーションと文法文の8.7Kアノテーションを付加する。 0.66
3.2 Filtering An important aspect when asking for direct assessment from crowdworkers is to filter low quality annotations. 3.2 フィルタリング クラウドワーカーから直接評価を求める場合の重要な側面は、低品質のアノテーションをフィルタリングすることである。 0.65
We proceed to discuss this procedure. 我々はこの手続きについて話し合う。 0.72
Annotators that took less than 350 seconds for 100 sentences were removed. 100文の注釈は350秒未満で削除された。 0.67
Removing about 5% of annotators (see Figure 1). 約5%のアノテーションを削除します(図1参照)。 0.67
This is expected to remove annotators who did not pay attention or mistakenly skipped a large number of sentences. これは注意を払わず、誤って大量の文をスキップした注釈を除去することが期待されている。 0.58
Among the remaining annotators, we made sure each judged the grammatical sentences to be better than the erroneous ones. 残りの注釈者のうち,各文法文が誤用文より優れていると判断されることを確認した。 0.60
Under the hypothesis that ungrammatical sentences had a lower score, we made a t-test for each annotator. 非文法文の方がスコアが低いという仮説のもと,各注釈者に対してtテストを行った。 0.54
If the grammatical sentences did not have a significantly higher average sentence score than the ungrammatical (p < 0.05), we filtered out all the annotations made by the annotator. 文法文が非文法文よりも平均文スコアが有意に高くなかった場合(p < 0.05)、アノテータによるアノテーションをすべてフィルタリングした。
訳抜け防止モード: 文法文が非文法文(p < 0.05 )よりも格段に高い平均文スコアを持たなかった場合 アノテータが作成したアノテーションを 全てフィルタリングしました
0.71
Overall about 2% of annotators were filtered in this method. 全体として約2%のアノテーションをフィルタした。 0.61
Last, we compared the Pearson correlation between each annotator’s Z-scores and the rest’s on the repeating sentences. 最後に,各アノテータのzスコアと残りの文のピアソン相関を比較した。
訳抜け防止モード: 最後に、各アノテータのZ-スコア間のピアソン相関を比較した。 残りは繰り返しの文に書かれています。
0.64
Following Graham et al (2015a), correlation only took into account sentences with at least 15 responses as the average is noisy. Graham et al (2015a) に続いて、相関は、平均がうるさいため、少なくとも15の応答を持つ文を考慮に入れた。 0.65
Annotators with strong negative correlations (> −0.4) were filtered out. 強い負の相関(> −0.4)を持つアノテーションを除去した。 0.61
Overall, these procedures filtered about 10% of the annotators. 全体として、これらの手順はアノテーションの約10%をフィルタリングした。 0.52
Furthermore, we found most annotators filtered in the previous stages had negative correlation, which validates this methodology, as the different filtering methods agree. さらに,前段のアノテータのほとんどが負の相関関係を示し,異なるフィルタリング手法が一致していることを確認した。 0.70
Raising the bars of either P or minimum time had diminishing gains in terms of finding negative correlation annotators. Pまたは最小時間のバーの上昇は負相関アノテータの発見において利得を低下させた。 0.72
While the annotations still contain noise, trying to filter out more with harsher thresholds produced similar results (See §5) with more variance (due to less data). アノテーションにはまだノイズが含まれているが、より厳密なしきい値でフィルタリングしようとすると、同様の結果(例えば、データが少ないため)がより分散している。 0.61
This suggests that the results are robust to this filtering and are reliable in that sense. これは、このフィルタリングに対して結果が堅牢であり、その意味で信頼性があることを示唆している。 0.58
4 Score per Type As mentioned above, annotations are done on a sentence level. 1型4点 前述したように、アノテーションは文レベルで行われる。 0.59
While this means we need to extrapolate which type of error is more important, it also allows us to do it for different error annotation schemes. これは、どのタイプのエラーがより重要であるかを概説する必要があるが、異なるエラーアノテーションスキームでそれを行うこともできる。 0.68
We experiment with both the manual annotated 手動で注釈を付けて実験し 0.67
Figure 1: Right: Working time per batch for one pass over NUCLE. 図1: 右: NUCLEを経由する1回のバッチ当たりの作業時間。 0.83
Left: the tail of the distribution and in red the threshold below which annotators were filtered 左:分布の尾と赤でアノテータがフィルタリングされた下のしきい値 0.82
error types in the NUCLE corpus and automatic error types. NUCLEコーパスのエラータイプと自動エラータイプ。 0.62
Specifically, we analyse both automatic error types of ERRANT (Bryant et al , 2017b) and SErCL (Choshen et al , 2020). 具体的には,errant (bryant et al , 2017b) とsercl (choshen et al , 2020) の自動エラータイプを解析した。 0.79
We do not analyze SERRANT (Choshen et al , 2021) as it is based on the two latter and is hence quite similar. 我々は、SERRANT (Choshen et al , 2021) を2つの後者に基づいて解析しないので、非常によく似ている。 0.75
Given the sentence scores we train a linear classifier with the error types count as features. 文のスコアを考えると、エラータイプを特徴としてカウントした線形分類器をトレーニングします。 0.61
For each sentence, we extract the number of times each type of error was found in it. 各文に対して,その中の各種類の誤りが見つかった回数を抽出する。 0.64
We then train the linear regression to predict the annotation score based on these features. 次に、これらの特徴に基づいて、アノテーションスコアを予測するために線形回帰を訓練する。
訳抜け防止モード: 線形回帰を訓練し これらの特徴に基づいてアノテーションスコアを予測する。
0.68
The output weights can be understood as the contribution of each type to the sentence annoyance levels. 出力重みは、文のアノイアンスレベルに対する各タイプの寄与として理解することができる。 0.72
Note that in doing so, we assume a linear contribution of types. 注意すべきは、型が線形に寄与することを仮定することである。 0.53
Namely, that when multiple types appear or a single type appears more than once, their contribution is additive. すなわち、複数の型が現れたり、1つの型が1回以上現れたりすると、その貢献は加算される。 0.65
Future work may consider more complex extrapolations with softer assumptions. 将来の研究は、よりソフトな仮定によるより複雑な外挿を考えるかもしれない。 0.42
Because the actual weights are hard to interpret, we focus on the ranks of each phenomena. 実際の重みは解釈が難しいので、それぞれの現象のランクに注目します。 0.57
In other words, we look to see who got the largest weight, the second largest and so on, rather than the actual distribution of weights that were assigned (we report those for completeness in App. A). 言い換えれば、割り当てられた重量の実際の分布よりも、誰が最大の重量、二番目に大きいものを得たかを確認したいのです(app.aで完全性について報告します)。 0.79
We extrapolate for each NUCLE type, for SErCl’s most frequent for ERRANT’s types and for ERRANT’s types without subcategorization to replacement additions and deletions. 私たちは、それぞれのNUCLEタイプを外挿し、SErClがERRANTの型に対して最も頻繁に、ERRANTの型に対して追加や削除を置き換えることなく、サブカテゴリ化します。 0.65
types, 5 Results We present the ranking for SErCl in Fig 2, for ERRANT in Fig 3 (Fine grained with insertion deletion and modification in App. A) and for NUCLE in Fig 4. 種類 5 の結果,fig 2 では sercl のランキングが,fig 3 では errant (app.a では挿入削除と修正で細粒化) では nucle では fig 4 では nucle のランキングを示した。
訳抜け防止モード: 種類 5結果 図2のSErClのランキングを提示する。 図3のERRANT(挿入削除した微細粒) そして、App .A の修正と、図 4 の NUCLE の修正です。
0.58
We also report the actual weight in appendix A and note that those are more variable and harder to reason about. また、実際の重み付けを付録Aで報告し、それらがより可変で推論が難しいことに注意する。 0.62
We see that despite the large sample there is still 大規模なサンプルがあるにもかかわらず 0.61
英語(論文から抽出)日本語訳スコア
variance. Thus, some error types are not significantly harder than others. ばらつき。 したがって、いくつかのエラータイプは他のものほど難しくはない。 0.61
Still, which errors are easy, medium or hard is clear. それでも、どのエラーが簡単か、中あるいは困難かは明らかです。 0.62
We find that, across the typologies, verb inflection and verb errors in general are among most bothering errors. その結果, 動詞の屈折や動詞の誤りは, 動詞の誤りがほとんどであることがわかった。
訳抜け防止モード: 私たちはそれを見つける。 動詞の屈折と動詞の誤りは あらゆるタイプにおいて 最も厄介なエラーです
0.67
So are orthography errors, unnecessarily added tokens, wrong determiner and other errors. 正書法エラー、不要な追加トークン、間違った決定子、その他のエラーなどです。 0.55
On the other side of the spectrum we can find missing tokens, inflection, morphology and others. スペクトルの反対側では、欠落したトークン、屈折、形態学などを見つけることができる。 0.52
Several errors related to determiners are also low ranking. 決定要因に関するいくつかの誤りも低いランクである。 0.51
6 Discussion and Conclusion Most metrics disregard the error type, at least in principal (Choshen and Abend, 2018a, In practice errors are unintentionally weighted differently, but not by design;). 6 議論と結論 ほとんどのメトリクスは、少なくともプリンシパルではエラータイプを無視しています(Choshen and Abend, 2018a, In practice error are unintentionly weighted different, but not by design;)。 0.78
This has been criticized and difficulty of correction was suggested to address it (Gotou et al , 2020). これは批判され、修正の難しさが指摘されている(Gotou et al , 2020)。 0.72
Our results show that not only some errors are more important to correct than others, those are not determined by frequency in the data nor in the difficulty to correct. 以上の結果から,誤りが他の誤りよりも重要であるだけでなく,データの頻度や修正の困難さによっても判断できないことがわかった。 0.81
Determiners are extremely common and a closed class (Choshen and Abend, 2018b), making them more important to correct to gain high scores in metrics, but those errors are not considered very important by humans. 決定は極めて一般的であり、閉クラス(Choshen and Abend, 2018b)であるため、高いスコアを得るために修正することがより重要であるが、これらの誤りは人間にとってあまり重要ではないと考えられている。 0.61
Similarly, orthographic errors are very easy to correct, but they are considered very annoying and important to correct. 同様に、正書法上の誤りは修正が容易であるが、それらは非常に煩わしく、修正が重要であると考えられている。 0.61
We also performed initial studies with weighting training spans by giving each token its weight by the importance of the error (non-error tokens weight is constant). また,各トークンの重み付けにエラーの重要性(非エラートークンの重み付けは一定)を付与することで,重み付けトレーニングスパンを用いた初期研究を行った。 0.71
Unsurprisingly, the network improves over the relevant errors more than on others or the baseline, although not by a large margin. 当然ながら、ネットワークは、大きなマージンではなく、他のものやベースラインよりも、関連するエラーよりも改善する。 0.68
7 Acknowledgments We thank Dan Malkin for the experiments with weighted gradients. 認定7件 我々は、重み付き勾配の実験にDan Malkin氏に感謝する。 0.64
References Christopher Bryant, Mariano Felice, and Edward Briscoe. 参照:Christopher Bryant、Mariano Felice、Edward Briscoe。 0.69
2017a. Automatic annotation and evaluation of error types for grammatical error correction. 2017年。 文法的誤り訂正のための誤り型の自動アノテーションと評価 0.78
Association for Computational Linguistics. Christopher Bryant, Mariano Felice, and Ted Briscoe. 計算言語学会会員。 クリストファー・ブライアント、マリアノ・フェリス、テッド・ブリスコ。 0.51
2017b. Automatic annotation and evaluation of error types for grammatical error correction. 2017年。 文法的誤り訂正のための誤り型の自動アノテーションと評価 0.71
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long 第55回計算言語学会年会紀要(第1巻:長さ) 0.49
Figure 2: Importance ranks of each SErCl type. 図2: それぞれのSErClタイプの重要性。 0.75
Std in error bars. std エラーバー。 0.31
Figure 3: Importance ranks of each ERRANT type. 図3: それぞれのERRANTタイプの重要性。 0.73
Std in error bars. std エラーバー。 0.31
(fine-grained ERRANT types in Appendix A.) (Appendix A の細粒 ERRANT 型) 0.57
Figure 4: Importance ranks of each NUCLE type. 図4: 各NUCLEタイプの重要性。 0.64
Std in error bars. std エラーバー。 0.31
英語(論文から抽出)日本語訳スコア
Myunghoon Lee, Hyeonho Shin, Dabin Lee, and SungPil Choi. ミョンフン・リー、ヒョンホー・シン、ダビン・リー、ソンピル・チョイ。 0.56
2021. Korean grammatical error correction based on transformer with copying mechanisms and grammatical noise implantation methods. 2021. 複写機構を持つ変圧器による韓国語の文法的誤り訂正と文法的ノイズ注入法 0.55
Sensors, 21(8). センサー、21(8)。 0.62
Shawn Loewen, Shaofeng Li, Fei Fei, Amy Thompson, Kimi Nakatsukasa, Seongmee Ahn, and Xiaoqing Chen. Shawn Loewen, Shaofeng Li, Fei Fei, Amy Thompson, Kimi Nakanaka, Seongmee Ahn, Xiaoqing Chen
訳抜け防止モード: ショーン・ルーウェン ショーン・リー フェイ・フェイ エイミー・トンプソン 仲司君、青梅アーン、西清チェン。
0.50
2009. Second language learners’ beliefs about grammar instruction and error correction. 2009. 文法指導と誤り訂正に関する第二言語学習者の信念。 0.59
The Modern Language Journal, 93(1):91–104. the modern language journal, 93(1):91–104を参照。 0.70
J. O’brien. 2015. J・オブリエン。 2015. 0.47
Consciousness-raisin g, error correction and proofreading. 意識上昇、誤り訂正、検証。 0.65
Journal of the Scholarship of Teaching and Learning, 15:85–103. Journal of the Scholarship of Teaching and Learning, 15:85–103。 0.42
Alla Rozovskaya and Dan Roth. Alla RozovskayaとDan Roth。 0.40
2019. Grammar error correction in morphologically rich languages: The case of Russian. 2019. 形態学的に豊かな言語における文法誤り訂正 : ロシア語の場合 0.58
Transactions of the Association for Computational Linguistics, 7:1–17. 計算言語学会(Association for Computational Linguistics, 7:1-17)の略。 0.51
Itamar Shatz. Itamar Shatz 0.29
2020. Refining and modifying the efcamdat: Lessons from creating a new corpus from an existing large-scale english learner language database. 2020. 編集と修正: 既存の大規模英語学習言語データベースから新しいコーパスを作成することから学んだこと。 0.59
International Journal of Learner Corpus Research, 6(2):220–236. international journal of learner corpus research, 6(2):220-236を参照。 0.74
Siddharth, Sandeep Swarnakar, and Sandeep Sharma. Siddharth、Sandeep Swarnakar、Sandeep Sharma。 0.35
2015. Grammatical error correction in oral conversation. 2015. 口頭会話における文法的誤り訂正 0.59
International Journal for Scientific Research and Development, pages 50–52. International Journal for Scientific Research and Development』50-52頁。 0.44
Joel R. Tetreault, Keisuke Sakaguchi, and Courtney Napoles. ジョエル・r・テトレオー、坂口敬介、コートニー・ナポールズ。 0.50
2017. Jfleg: A fluency corpus and benchmark for grammatical error correction. 2017. Jfleg: 文法的エラー訂正のための流布コーパスとベンチマーク。 0.53
In EACL. C. Tsai, Jhih-Jie Chen, Chingyu Yang, and Jason J. S. Chang. EACL所属。 C.Tsai、Jhih-Jie Chen、Chingyu Yang、Jason J.S. Chang。 0.55
2020. Lingglewrite: a coaching system for essay writing. 2020. Lingglewrite:エッセイを書くためのコーチングシステム。 0.61
In ACL. Yu Wang, Yuelin Wang, J. Liu, and Zhuo Liu. aclで Yu Wang, Yuelin Wang, J. Liu, Zhuo Liu 0.40
2020. A comprehensive survey of grammar error correction. 2020. 文法誤り訂正に関する総合的な調査 0.56
ArXiv, abs/2005.06600. arxiv、abs/2005.06600。 0.52
Joanna Wolfe, Nisha Shanmugaraj, and Jaclyn Sipe. Joanna Wolfe、Nisha Shanmugaraj、Jaclyn Sipe。 0.70
2016. Grammatical versus pragmatic error: Employer perceptions of nonnative and native english speakers. 2016. 文法的誤りと実用的誤り:非母語話者と母語話者の雇用者認識 0.56
Business and Professional Communication Quarterly, 79(4):397–415. ビジネスおよびプロフェッショナルコミュニケーション四半期, 79(4):397–415。 0.78
Papers), pages 793–805, Vancouver, Canada. カナダ、バンクーバー、793-805頁。 0.57
Association for Computational Linguistics. Leshem Choshen and Omri Abend. 計算言語学会会員。 leshem choshen と omri abend。 0.57
2018a. Automatic metric validation for grammatical error correction. 2018年。 文法的誤り訂正のための自動計量検証 0.67
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1372–1382, Melbourne, Australia. 第56回計算言語学会年次大会(第1巻:長い論文)では、オーストラリアのメルボルンで1372-1382頁が開催された。 0.65
Association for Computational Linguistics. Leshem Choshen and Omri Abend. 計算言語学会会員。 leshem choshen と omri abend。 0.57
2018b. Inherent biases in reference-based evaluation for grammatical error correction. 2018年。 文法的誤り訂正のための参照に基づく評価に固有のバイアス 0.60
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 632–642. 第56回計算言語学会年次総会(第1巻:長い論文)では、632-642頁。 0.56
Leshem Choshen, D. Nikolaev, Yevgeni Berzak, and Omri Abend. Leshem Choshen、D. Nikolaev、Yevgeni Berzak、Omri Abend。 0.37
2020. Classifying syntactic errors in learner language. 2020. 学習者言語における構文エラーの分類 0.55
ArXiv, abs/2010.11032. arxiv、abs/2010.11032。 0.51
Leshem Choshen, Matanel Orenm Dmitry Nikolaev, and Omri Abend. Leshem Choshen、Matanel Orenm Dmitry Nikolaev、Omri Abend。 0.32
2021. Serrant: a syntactic classifier for english grammatical error types. 2021. Serrant: 英文法エラー型のための構文分類器。 0.61
arXiv preprint arXiv:2104.02310. arXiv preprint arXiv:2104.02310 0.36
Daniel Dahlmeier, Hwee Tou Ng, and Siew Mei Wu. Daniel Dahlmeier, Hwee Tou Ng, Siew Mei Wu 0.32
2013. Building a large annotated corpus of learner English: The NUS corpus of learner English. 2013. 学習者英語の大きな注釈付きコーパスの構築:学習者英語のNUSコーパス。 0.57
In Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications, pages 22–31, Atlanta, Georgia. 第8回nlp革新的利用に関するワークショップの議事録では、ジョージア州アトランタの22-31ページが紹介されている。
訳抜け防止モード: 8th Workshop on Innovative Use of NLP for Building Educational Applications に参加して 22-31頁、ジョージア州アトランタ。
0.77
Association for Computational Linguistics. R. Dale and Adam Kilgarriff. 計算言語学会会員。 R. DaleとAdam Kilgarriff。 0.49
2011. Helping our own: 2011. 自力で支援します 0.49
The hoo 2011 pilot shared task. hoo 2011のパイロットはタスクを共有した。 0.62
In ENLG. Michael Gamon, Martin Chodorow, Claudia Leacock, and Joel Tetreault. ENLG所属。 Michael Gamon、Martin Chodorow、Claudia Leacock、Joel Tetreault。 0.53
2013. Grammatical error detection in automatic essay scoring and feedback. 2013. 自動エッセイスコアリングとフィードバックにおける文法的誤り検出 0.58
In Handbook of automated essay evaluation, pages 273–288. 自動エッセイ評価ハンドブック273-288頁。 0.56
Routledge. Takumi Gotou, Ryo Nagata, Masato Mita, and Kazuaki Hanawa. Routledge 後藤内匠、永田良、三田正人、花輪一秋。 0.28
2020. Taking the correction difficulty into account in grammatical error correction evaluation. 2020. 文法的誤り訂正評価における補正困難を考慮した。 0.60
In Proceedings of the 28th International Conference on Computational Linguistics, pages 2085–2095. 第28回計算言語学国際会議では2085-2095頁。 0.69
Yvette Graham, Timothy Baldwin, Meghan Dowling, Maria Eskevich, Teresa Lynn, and L. Tounsi. Yvette Graham, Timothy Baldwin, Meghan Dowling, Maria Eskevich, Teresa Lynn, L. Tounsi。 0.41
2016. Is all that glitters in mt quality estimation really gold standard. 2016. mtの品質評価は、すべて本当にゴールド標準なのでしょうか? 0.53
In COLING 2016. 2016年はコリング。 0.57
Yvette Graham, Timothy Baldwin, and Nitika Mathur. Yvette Graham、Timothy Baldwin、Nitika Mathur。 0.33
2015a. Accurate evaluation of segment-level maIn Proceedings of the chine translation metrics. 2015年。 ニワトリ翻訳指標のセグメントレベルのmaIn Proceedingの精度評価 0.69
2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1183–1191. 2015 conference of the north american chapter of the association for computational linguistics: human language technologies, pages 1183–1191. 英語) 0.46
Yvette Graham, Timothy Baldwin, A. Moffat, and J. Zobel. イヴェット・グラハム、ティモシー・ボールドウィン、A・モファット、J・ゾベル。 0.47
2015b. Can machine translation systems be evaluated by the crowd alone. 2015年。 機械翻訳システムは、群衆だけで評価できるのか? 0.66
Natural Language Engineering, 23:3 – 30. 自然言語工学、23:3 - 30。 0.83
英語(論文から抽出)日本語訳スコア
Figure 5: Importance ranks of each coarse-grained ERRANT types. 図5: 粗い粒度のERRANTタイプの重要性。 0.65
Std in error bars. std エラーバー。 0.31
Figure 7: Importance weights of each coarse-grained ERRANT types. 図7: 粗い粒度のERRANTタイプの重要性。 0.66
Std in error bars. std エラーバー。 0.31
Figure 6: Importance weights of each fine-grained ERRANT types. 図6: 各細粒度の誤植型の重み付け。 0.65
Std in error bars. std エラーバー。 0.31
A Additional Graphs We present here the fine-grained ERRANT labels and the linear regression weights with their std. 追加グラフ ここでは、細粒度のERRANTラベルとそのstdによる線形回帰重みを示す。 0.78
Note that negative score does not necessarily means that this type is considered positive by annotators, as there is a baseline too (so it might only be less severe than other errors). 負のスコアが必ずしも、この型がアノテータによって肯定的であるという意味ではないことに注意してください。
訳抜け防止モード: 負のスコアが必ずしもこの型がアノテータによって正と見なされることを意味するとは限らないことに注意。 ベースラインもあるので(だから他のエラーよりも厳しいだけかもしれない)。
0.59
Figure 8: Importance weights of each SErCl type. 図8: 各SErClタイプの重要性重み。 0.74
Std in error bars. std エラーバー。 0.31
Figure 9: Importance weights of each NUCLE type. 図9: 各NUCLEタイプの重要性重み。 0.72
Std in error bars. std エラーバー。 0.31
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。