論文の概要: Mining Error Templates for Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2206.11569v1
- Date: Thu, 23 Jun 2022 09:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:44:24.689472
- Title: Mining Error Templates for Grammatical Error Correction
- Title(参考訳): 文法的誤り訂正のためのマイニングエラーテンプレート
- Authors: Yue Zhang, Haochen Jiang, Zuyi Bao, Bo Zhang, Chen Li, Zhenghua Li
- Abstract要約: 本稿では,文法的誤り訂正(GEC)のためのエラーテンプレートの自動マイニング手法を提案する。
エラーテンプレートはテキストエラーの特定を目的とした正規表現である。
本手法に基づいて,中国GECの1,119個のエラーテンプレートを蓄積した。
- 参考スコア(独自算出の注目度): 21.598150260327177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Some grammatical error correction (GEC) systems incorporate hand-crafted
rules and achieve positive results. However, manually defining rules is
time-consuming and laborious. In view of this, we propose a method to mine
error templates for GEC automatically. An error template is a regular
expression aiming at identifying text errors. We use the web crawler to acquire
such error templates from the Internet. For each template, we further select
the corresponding corrective action by using the language model perplexity as a
criterion. We have accumulated 1,119 error templates for Chinese GEC based on
this method. Experimental results on the newly proposed CTC-2021 Chinese GEC
benchmark show that combing our error templates can effectively improve the
performance of a strong GEC system, especially on two error types with very
little training data. Our error templates are available at
\url{https://github.com/HillZhang1999/gec_error_template}.
- Abstract(参考訳): いくつかの文法的誤り訂正(GEC)システムは手作りの規則を取り入れ、肯定的な結果を得る。
しかし、手動でルールを定義するのは時間と労力を要する。
そこで本研究では,GCCのエラーテンプレートを自動マイニングする手法を提案する。
エラーテンプレートはテキストエラーの特定を目的とした正規表現である。
インターネットからこのようなエラーテンプレートを取得するために、Webクローラを使用します。
各テンプレートに対して、言語モデルパープレクシリティを基準として、対応する補正アクションを更に選択する。
本手法に基づいて,中国GECの1,119個のエラーテンプレートを蓄積した。
新たに提案するctc-2021中国gecベンチマーク実験の結果,誤りテンプレートを組み合わせることで,特にトレーニングデータが少ない2つのエラータイプにおいて,強力なgecシステムの性能が効果的に向上することが示された。
エラーテンプレートは \url{https://github.com/HillZhang 1999/gec_error_template} で利用可能です。
関連論文リスト
- Efficient and Interpretable Grammatical Error Correction with Mixture of Experts [33.748193858033346]
文法的誤り訂正のための混合専門家モデルMoECEを提案する。
本モデルでは,有効パラメータの3倍少ないT5-XLの性能を実現する。
論文 参考訳(メタデータ) (2024-10-30T23:27:54Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - To Err Is Human, but Llamas Can Learn It Too [0.6990493129893112]
本研究では,言語モデル(LM)を用いた文法的誤り訂正の強化について検討する。
Llama 2-based LMs for error generation, and found that this approach yields synthetic error to a same error。
我々はこれらの人工的誤りの助けを借りてGEC Llamaモデルを訓練し、過去の最先端の誤り訂正モデルより優れていた。
論文 参考訳(メタデータ) (2024-03-08T18:04:03Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Do Grammatical Error Correction Models Realize Grammatical
Generalization? [8.569720582920416]
本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。
現在の標準変換器ベースGECモデルでは, 簡単な設定でも文法的一般化が得られないことがわかった。
論文 参考訳(メタデータ) (2021-06-06T04:59:29Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。