論文の概要: Grammatical Error Correction via Mixed-Grained Weighted Training
- arxiv url: http://arxiv.org/abs/2311.13848v1
- Date: Thu, 23 Nov 2023 08:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:18:03.966335
- Title: Grammatical Error Correction via Mixed-Grained Weighted Training
- Title(参考訳): 混合重みトレーニングによる文法的誤り訂正
- Authors: Jiahao Li, Quan Wang, Chiwei Zhu, Zhendong Mao, Yongdong Zhang
- Abstract要約: 文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
- 参考スコア(独自算出の注目度): 68.94921674855621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Grammatical Error Correction (GEC) aims to automatically correct
grammatical errors in natural texts. Almost all previous works treat annotated
training data equally, but inherent discrepancies in data are neglected. In
this paper, the inherent discrepancies are manifested in two aspects, namely,
accuracy of data annotation and diversity of potential annotations. To this
end, we propose MainGEC, which designs token-level and sentence-level training
weights based on inherent discrepancies in accuracy and potential diversity of
data annotation, respectively, and then conducts mixed-grained weighted
training to improve the training effect for GEC. Empirical evaluation shows
that whether in the Seq2Seq or Seq2Edit manner, MainGEC achieves consistent and
significant performance improvements on two benchmark datasets, demonstrating
the effectiveness and superiority of the mixed-grained weighted training.
Further ablation experiments verify the effectiveness of designed weights of
both granularities in MainGEC.
- Abstract(参考訳): 文法的誤り訂正(GEC)の課題は,自然文の文法的誤りを自動的に補正することである。
ほとんど全ての先行研究は、注釈付きトレーニングデータを平等に扱うが、固有のデータの不一致は無視される。
本稿では,データアノテーションの精度と潜在的なアノテーションの多様性という2つの側面に固有の相違点を示す。
そこで本研究では,データアノテーションの精度と潜在的多様性の相違に基づいて,トークンレベルと文レベルのトレーニング重み付けをそれぞれ設計し,gecのトレーニング効果を向上させるために混合粒度重み付けトレーニングを行うmaingecを提案する。
経験的評価は、Seq2SeqとSeq2Editの方法では、MainGECは2つのベンチマークデータセットで一貫した、重要なパフォーマンス改善を実現し、混合粒度トレーニングの有効性と優位性を示している。
さらにアブレーション実験により,MainGECにおける両粒度の設計重量の有効性が検証された。
関連論文リスト
- Refining CART Models for Covariate Shift with Importance Weight [0.0]
本稿では,これらの分布差に効果的に対処するための重み付けを取り入れた分類と回帰木(CART)の適応について紹介する。
本手法の有効性をシミュレーション研究により評価し,実世界の医療データに適用し,予測精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-10-28T12:53:23Z) - Gradient Reweighting: Towards Imbalanced Class-Incremental Learning [8.438092346233054]
CIL(Class-Incremental Learning)は、非定常データから新しいクラスを継続的に認識するためにモデルを訓練する。
CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する場合である。
この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。
論文 参考訳(メタデータ) (2024-02-28T18:08:03Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - On the Validation of Gibbs Algorithms: Training Datasets, Test Datasets
and their Aggregation [70.540936204654]
Gibbsアルゴリズム(GA)のトレーニングデータへの依存を解析的に特徴付ける。
この記述により、異なるデータセットでトレーニングされたGAのトレーニングエラーとテストエラーを含む明示的な表現の開発が可能になる。
論文 参考訳(メタデータ) (2023-06-21T16:51:50Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Ensemble Distillation Approaches for Grammatical Error Correction [18.81579562876076]
アンサンブル蒸留(EnD)とアンサンブル分配蒸留(EnDD)は、アンサンブルを1つのモデルに圧縮するために提案されている。
本稿では,これら2つの蒸留手法のシーケンス予測タスク,文法的誤り訂正(GEC)への適用について検討する。
しかしながら、単語に対する文法的訂正の予測は、単語の入力シーケンスと生成された出力履歴の両方に大きく依存するので、蒸留のために調査された標準タスクよりも難しい。
論文 参考訳(メタデータ) (2020-11-24T15:00:45Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。