論文の概要: Stronger Baselines for Grammatical Error Correction Using Pretrained
Encoder-Decoder Model
- arxiv url: http://arxiv.org/abs/2005.11849v2
- Date: Wed, 30 Sep 2020 02:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:40:36.374885
- Title: Stronger Baselines for Grammatical Error Correction Using Pretrained
Encoder-Decoder Model
- Title(参考訳): プリトレーニングエンコーダ・デコーダモデルを用いた文法的誤り訂正のためのより強固なベースライン
- Authors: Satoru Katsumata and Mamoru Komachi
- Abstract要約: 文法誤り訂正のための汎用事前学習エンコーダ・デコーダモデルとしての双方向・自動回帰変換器(BART)の有用性について検討する。
単言語および多言語BARTモデルは、GECにおいて高い性能を達成し、その結果の1つは、現在の英語GECの強みに匹敵する結果である。
- 参考スコア(独自算出の注目度): 24.51571980021599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studies on grammatical error correction (GEC) have reported the effectiveness
of pretraining a Seq2Seq model with a large amount of pseudodata. However, this
approach requires time-consuming pretraining for GEC because of the size of the
pseudodata. In this study, we explore the utility of bidirectional and
auto-regressive transformers (BART) as a generic pretrained encoder-decoder
model for GEC. With the use of this generic pretrained model for GEC, the
time-consuming pretraining can be eliminated. We find that monolingual and
multilingual BART models achieve high performance in GEC, with one of the
results being comparable to the current strong results in English GEC. Our
implementations are publicly available at GitHub
(https://github.com/Katsumata420/generic-pretrained-GEC).
- Abstract(参考訳): 文法的誤り訂正(GEC)の研究は、大量の擬似データを用いたSeq2Seqモデルの事前学習の有効性を報告している。
しかし、この手法では擬似データのサイズのため、ECCの事前学習に時間がかかる。
本研究では,GECの汎用事前学習エンコーダデコーダモデルとして,双方向・自動回帰変換器(BART)の有用性を検討する。
GECにこの一般的な事前訓練モデルを用いることで、時間を要する事前訓練を排除できる。
単言語および多言語BARTモデルはGECにおいて高い性能を達成でき、その結果の1つは現在の英語GECの強い結果に匹敵するものである。
私たちの実装はGitHubで公開されています(https://github.com/Katsumata420/generic-pretrained-GEC)。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Improving Seq2Seq Grammatical Error Correction via Decoding
Interventions [40.52259641181596]
本稿では,外部批判を駆使して生成するトークンの妥当性を段階的に評価する統合デコード介入フレームワークを提案する。
我々は、事前訓練された言語モデル評論家と、段階的なターゲット側の文法的誤り検出批評家の2つのタイプの批判を発見し、調査する。
我々のフレームワークは一貫して強いベースラインを上回り、最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2023-10-23T03:36:37Z) - Leveraging Denoised Abstract Meaning Representation for Grammatical
Error Correction [53.55440811942249]
文法的誤り訂正(英: Grammatical Error Correction, GEC)とは、誤りのある文を文法的に正しい、意味的に一貫性のある、一貫性のある文に修正する作業である。
本稿では,AMRを付加知識として組み込んだSeq-to-seqモデルであるAMR-GECを提案する。
論文 参考訳(メタデータ) (2023-07-05T09:06:56Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction [30.917993017459615]
本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。
このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
論文 参考訳(メタデータ) (2021-12-15T20:27:40Z) - Do Grammatical Error Correction Models Realize Grammatical
Generalization? [8.569720582920416]
本研究は, GECモデルが誤り訂正に必要な文法的知識をどの程度一般化するかを考察する。
現在の標準変換器ベースGECモデルでは, 簡単な設定でも文法的一般化が得られないことがわかった。
論文 参考訳(メタデータ) (2021-06-06T04:59:29Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。