Fugu-MT 論文翻訳(概要): Grammatical Error Generation Based on Translated Fragments

論文の概要: Grammatical Error Generation Based on Translated Fragments

arxiv url: http://arxiv.org/abs/2104.09933v1
Date: Tue, 20 Apr 2021 12:43:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-21 19:28:59.902233
Title: Grammatical Error Generation Based on Translated Fragments
Title（参考訳）: 翻訳断片に基づく文法的誤り生成
Authors: Eetu Sj\"oblom and Mathias Creutz and Teemu Vahtola
Abstract要約: 英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We perform neural machine translation of sentence fragments in order to create large amounts of training data for English grammatical error correction. Our method aims at simulating mistakes made by second language learners, and produces a wider range of non-native style language in comparison to state-of-the-art synthetic data creation methods. In addition to purely grammatical errors, our approach generates other types of errors, such as lexical errors. We perform grammatical error correction experiments using neural sequence-to-sequence models, and carry out quantitative and qualitative evaluation. A model trained on data created using our proposed method is shown to outperform a baseline model on test data with a high proportion of errors.
Abstract（参考訳）: 英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。本手法は, 第二言語学習者の誤りをシミュレーションし, 最先端の合成データ生成手法と比較して, より広範な非ネイティブ言語を生成することを目的とする。純粋に文法的な誤りに加えて、語彙的エラーなど、他のタイプのエラーも生成する。ニューラルネットワークを用いた文法的誤り訂正実験を行い,定量的かつ定性的な評価を行う。提案手法を用いて生成したデータに基づいて学習したモデルは,高い誤差率でテストデータ上でのベースラインモデルより優れていることを示す。

関連論文リスト

Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
Towards the Development of Balanced Synthetic Data for Correcting Grammatical Errors in Arabic: An Approach Based on Error Tagging Model and Synthetic Data Generating Model [0.32885740436059047]
誤りタグ付けモデルと合成データ生成モデルを開発し、アラビア語で大規模な合成データセットを作成し、文法的誤り訂正を行う。合成データ生成モデルを用いて,30,219,310の合成文ペアを生成する。 QALB-14とQALB-15テストセットでは、エラータグ付けモデルは94.42%のF1を達成した。
論文参考訳（メタデータ） (2025-02-07T20:28:37Z)
Byte-Level Grammatical Error Correction Using Synthetic and Curated Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文参考訳（メタデータ） (2023-05-29T06:35:40Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)
Judge a Sentence by Its Content to Generate Grammatical Errors [0.0]
文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
論文参考訳（メタデータ） (2022-08-20T14:31:34Z)
Improving Pre-trained Language Models with Syntactic Dependency Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文参考訳（メタデータ） (2022-04-15T13:55:32Z)
Exploring the Capacity of a Large-scale Masked Language Model to Recognize Grammatical Errors [3.55517579369797]
トレーニングデータの5～10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
論文参考訳（メタデータ） (2021-08-27T10:37:14Z)
Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文参考訳（メタデータ） (2021-05-27T17:17:21Z)
Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文参考訳（メタデータ） (2021-05-07T21:58:35Z)
Neural Text Generation with Artificial Negative Examples [7.187858820534111]
強化学習フレームワークでテキスト生成モデルを訓練することにより,任意のタイプのエラーを抑制することを提案する。我々は、目標となるタイプのエラーを含む参照と文を識別できる訓練可能な報酬関数を使用する。実験の結果,生成誤差の抑制と2つの機械翻訳と2つの画像キャプションタスクの大幅な改善を達成できることが示された。
論文参考訳（メタデータ） (2020-12-28T07:25:10Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文参考訳（メタデータ） (2020-05-12T11:01:44Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。