論文の概要: Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora
- arxiv url: http://arxiv.org/abs/2305.17906v1
- Date: Mon, 29 May 2023 06:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:59:07.863393
- Title: Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora
- Title(参考訳): 合成コーパスとキュレートコーパスを用いたバイトレベルの文法的誤り訂正
- Authors: Svanhv\'it Lilja Ing\'olfsd\'ottir, P\'etur Orri Ragnarsson, Haukur
P\'all J\'onsson, Haukur Barri S\'imonarson, Vilhj\'almur {\TH}orsteinsson,
V\'esteinn Sn{\ae}bjarnarson
- Abstract要約: 文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grammatical error correction (GEC) is the task of correcting typos, spelling,
punctuation and grammatical issues in text. Approaching the problem as a
sequence-to-sequence task, we compare the use of a common subword unit
vocabulary and byte-level encoding. Initial synthetic training data is created
using an error-generating pipeline, and used for finetuning two subword-level
models and one byte-level model. Models are then finetuned further on
hand-corrected error corpora, including texts written by children, university
students, dyslexic and second-language writers, and evaluated over different
error types and origins. We show that a byte-level model enables higher
correction quality than a subword approach, not only for simple spelling
errors, but also for more complex semantic, stylistic and grammatical issues.
In particular, initial training on synthetic corpora followed by finetuning on
a relatively small parallel corpus of real-world errors helps the byte-level
model correct a wide range of commonly occurring errors. Our experiments are
run for the Icelandic language but should hold for other similar languages,
particularly morphologically rich ones.
- Abstract(参考訳): 文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字の型、綴り、句読点、文法的問題を訂正する作業である。
シーケンスからシーケンスへのタスクとしてこの問題にアプローチし、共通のサブワード単位語彙とバイトレベルのエンコーディングの使用を比較した。
初期合成トレーニングデータはエラー生成パイプラインを使用して作成され、2つのサブワードレベルのモデルと1つのバイトレベルのモデルの微調整に使用される。
モデルはさらに、子供、大学生、ディプレクシック、第二言語ライターによるテキストを含む手修正エラーコーパスに微調整され、異なるエラータイプや起源に対して評価される。
バイトレベルのモデルは、単純な綴り誤りだけでなく、より複雑な意味論、スタイリスティック、文法的な問題に対しても、サブワードアプローチよりも高い補正品質を実現する。
特に、合成コーパスの初期トレーニングと、比較的小さな実世界のエラーコーパスの微調整は、バイトレベルのモデルが一般的に発生するエラーの幅広い範囲を修正するのに役立つ。
私たちの実験はアイスランド語で行われていますが、他の類似言語、特に形態学的に豊かな言語に当てはまるべきです。
関連論文リスト
- Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Hierarchical Character Tagger for Short Text Spelling Error Correction [27.187562419222218]
短文スペル誤り訂正のための階層的文字タガーモデル(HCTagger)を提案する。
文字レベルの事前訓練された言語モデルをテキストエンコーダとして使用し、文字レベルの編集を予測して、元のテキストをエラーのない形式に変換し、ラベル空間をはるかに小さくする。
2つの公開ミススペル補正データセットの実験では、HCTaggerは既存のモデルよりも正確ではるかに高速なアプローチであることが示されている。
論文 参考訳(メタデータ) (2021-09-29T08:04:34Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。