論文の概要: Do Grammatical Error Correction Models Realize Grammatical
Generalization?
- arxiv url: http://arxiv.org/abs/2106.03031v1
- Date: Sun, 6 Jun 2021 04:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:16:31.731110
- Title: Do Grammatical Error Correction Models Realize Grammatical
Generalization?
- Title(参考訳): 文法的誤り訂正モデルは文法的一般化を実現するか?
- Authors: Masato Mita and Hitomi Yanaka
- Abstract要約: 本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。
現在の標準変換器ベースGECモデルでは, 簡単な設定でも文法的一般化が得られないことがわかった。
- 参考スコア(独自算出の注目度): 8.569720582920416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been an increased interest in data generation approaches to
grammatical error correction (GEC) using pseudo data. However, these approaches
suffer from several issues that make them inconvenient for real-world
deployment including a demand for large amounts of training data. On the other
hand, some errors based on grammatical rules may not necessarily require a
large amount of data if GEC models can realize grammatical generalization. This
study explores to what extent GEC models generalize grammatical knowledge
required for correcting errors. We introduce an analysis method using synthetic
and real GEC datasets with controlled vocabularies to evaluate whether models
can generalize to unseen errors. We found that a current standard
Transformer-based GEC model fails to realize grammatical generalization even in
simple settings with limited vocabulary and syntax, suggesting that it lacks
the generalization ability required to correct errors from provided training
examples.
- Abstract(参考訳): 擬似データを用いた文法的誤り訂正(GEC)へのデータ生成手法への関心が高まっている。
しかし、これらのアプローチは、大量のトレーニングデータを要求するなど、現実世界のデプロイメントに不便ないくつかの問題に苦しんでいる。
一方、文法規則に基づくいくつかの誤りは、GECモデルが文法的一般化を実現できる場合、必ずしも大量のデータを必要としない場合がある。
本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。
本稿では,モデルが未知の誤りに一般化できるかどうかを評価するために,制御語彙を持つ合成および実GECデータセットを用いた解析手法を提案する。
現在の標準トランスフォーマーベースのgecモデルでは,語彙や構文が限定された単純な設定であっても文法的一般化は実現できず,トレーニング例による誤り訂正に必要な一般化能力が不足していることが判明した。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - Judge a Sentence by Its Content to Generate Grammatical Errors [0.0]
文法的誤り訂正のための合成データ生成のための学習ベース2段階法を提案する。
合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-08-20T14:31:34Z) - ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction [30.917993017459615]
本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。
このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
論文 参考訳(メタデータ) (2021-12-15T20:27:40Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。