論文の概要: Comparison of Grammatical Error Correction Using Back-Translation Models
- arxiv url: http://arxiv.org/abs/2104.07848v1
- Date: Fri, 16 Apr 2021 01:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 04:39:05.914895
- Title: Comparison of Grammatical Error Correction Using Back-Translation Models
- Title(参考訳): バックトランスレーションモデルを用いた文法的誤り訂正の比較
- Authors: Aomi Koyama and Kengo Hotate and Masahiro Kaneko and Mamoru Komachi
- Abstract要約: 異なるBTモデルにより生成された擬似データに基づいて訓練されたGECモデルの補正傾向を比較した。
異なるBTモデルの組み合わせは、異なる種を持つ単一のBTモデルと比較して、各エラータイプのF_0.5スコアを改善または補間する。
- 参考スコア(独自算出の注目度): 22.316934668106526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grammatical error correction (GEC) suffers from a lack of sufficient parallel
data. Therefore, GEC studies have developed various methods to generate pseudo
data, which comprise pairs of grammatical and artificially produced
ungrammatical sentences. Currently, a mainstream approach to generate pseudo
data is back-translation (BT). Most previous GEC studies using BT have employed
the same architecture for both GEC and BT models. However, GEC models have
different correction tendencies depending on their architectures. Thus, in this
study, we compare the correction tendencies of the GEC models trained on pseudo
data generated by different BT models, namely, Transformer, CNN, and LSTM. The
results confirm that the correction tendencies for each error type are
different for every BT model. Additionally, we examine the correction
tendencies when using a combination of pseudo data generated by different BT
models. As a result, we find that the combination of different BT models
improves or interpolates the F_0.5 scores of each error type compared with that
of single BT models with different seeds.
- Abstract(参考訳): 文法的誤り訂正(GEC)は十分な並列データが不足している。
そこで, GEC研究は, 文法文と人工文のペアからなる擬似データを生成する様々な手法を開発した。
現在、擬似データを生成する主要なアプローチは、バックトランスレーション(BT)である。
BT を用いた以前の GEC の研究は GEC と BT の両方で同じアーキテクチャを採用している。
しかし、GECモデルはアーキテクチャによって異なる補正傾向を持つ。
そこで本研究では,異なるBTモデル,すなわち Transformer, CNN, LSTM によって生成された疑似データに基づいてトレーニングされた GEC モデルの補正傾向を比較した。
その結果,btモデルごとに誤差タイプごとの補正傾向が異なることが確認された。
さらに,異なるBTモデルにより生成された擬似データの組み合わせを用いて補正傾向を検討する。
その結果、異なるBTモデルの組み合わせは、異なるシードを持つ単一BTモデルと比較して、各エラータイプのF_0.5スコアを改善または補間することがわかった。
関連論文リスト
- Efficient and Interpretable Grammatical Error Correction with Mixture of Experts [33.748193858033346]
文法的誤り訂正のための混合専門家モデルMoECEを提案する。
本モデルでは,有効パラメータの3倍少ないT5-XLの性能を実現する。
論文 参考訳(メタデータ) (2024-10-30T23:27:54Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Type-Driven Multi-Turn Corrections for Grammatical Error Correction [46.34114495164071]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文法的誤りを自動的に検出し、訂正することを目的としている。
これまでの研究では、露出バイアスに対処するためのデータ拡張アプローチに主に焦点が当てられていた。
GECのためのタイプ駆動型マルチTurn Correctionsアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-17T07:30:05Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - Stronger Baselines for Grammatical Error Correction Using Pretrained
Encoder-Decoder Model [24.51571980021599]
文法誤り訂正のための汎用事前学習エンコーダ・デコーダモデルとしての双方向・自動回帰変換器(BART)の有用性について検討する。
単言語および多言語BARTモデルは、GECにおいて高い性能を達成し、その結果の1つは、現在の英語GECの強みに匹敵する結果である。
論文 参考訳(メタデータ) (2020-05-24T22:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。