論文の概要: MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error
Correction
- arxiv url: http://arxiv.org/abs/2310.11671v1
- Date: Wed, 18 Oct 2023 02:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:55:26.457425
- Title: MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error
Correction
- Title(参考訳): MixEdit: 文法的エラー訂正のためのデータ拡張の再検討
- Authors: Jingheng Ye, Yinghui Li, Yangning Li, Hai-Tao Zheng
- Abstract要約: モノリンガルコーパスを余分に必要とせずに、戦略的かつ動的にリアルなデータを拡張するデータ拡張手法であるMixEditを提案する。
その結果,MixEdit は GEC モデルを大幅に改善し,従来のデータ拡張手法を補完することを示した。
- 参考スコア(独自算出の注目度): 24.370610646959907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Augmentation through generating pseudo data has been proven effective in
mitigating the challenge of data scarcity in the field of Grammatical Error
Correction (GEC). Various augmentation strategies have been widely explored,
most of which are motivated by two heuristics, i.e., increasing the
distribution similarity and diversity of pseudo data. However, the underlying
mechanism responsible for the effectiveness of these strategies remains poorly
understood. In this paper, we aim to clarify how data augmentation improves GEC
models. To this end, we introduce two interpretable and computationally
efficient measures: Affinity and Diversity. Our findings indicate that an
excellent GEC data augmentation strategy characterized by high Affinity and
appropriate Diversity can better improve the performance of GEC models. Based
on this observation, we propose MixEdit, a data augmentation approach that
strategically and dynamically augments realistic data, without requiring extra
monolingual corpora. To verify the correctness of our findings and the
effectiveness of the proposed MixEdit, we conduct experiments on mainstream
English and Chinese GEC datasets. The results show that MixEdit substantially
improves GEC models and is complementary to traditional data augmentation
methods.
- Abstract(参考訳): 擬似データの生成によるデータ拡張は,文法的誤り訂正(GEC)分野におけるデータ不足の軽減に有効であることが証明されている。
様々な拡張戦略が広く研究され、そのほとんどは2つのヒューリスティック、すなわち擬似データの分布類似性と多様性の増大によって動機付けられている。
しかし、これらの戦略の有効性に責任を負うメカニズムはいまだに理解されていない。
本稿では,データ拡張がGECモデルをどのように改善するかを明らかにすることを目的とする。
そこで本研究では,親和性と多様性という2つの解釈可能かつ計算効率の高い尺度を提案する。
以上の結果から,高い親和性と適切な多様性を特徴とする優れたGECデータ拡張戦略が,GECモデルの性能向上に寄与することが示唆された。
そこで本研究では,単言語コーパスを余分に必要とせずに,リアルデータを戦略的かつ動的に拡張するデータ拡張手法であるmixeditを提案する。
提案したMixEditの正しさと有効性を検証するため,本研究では,主流の英語と中国語のGECデータセットを用いて実験を行った。
その結果,MixEdit は GEC モデルを大幅に改善し,従来のデータ拡張手法を補完することを示した。
関連論文リスト
- Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Incorporating Supervised Domain Generalization into Data Augmentation [4.14360329494344]
本稿では,データ拡張の堅牢性と訓練効率を向上させるために,コントラッシブ・セマンティック・アライメント(CSA)ロス法を提案する。
CIFAR-100とCUBデータセットの実験により、提案手法は典型的なデータ拡張の堅牢性とトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2023-10-02T09:20:12Z) - Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets [3.341975883864341]
本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
論文 参考訳(メタデータ) (2023-08-19T22:19:41Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z) - WeMix: How to Better Utilize Data Augmentation [36.07712244423405]
我々はデータ拡張の長所と短所を明らかにする包括的分析を開発する。
データ拡張の主な制限は、データバイアスから生じます。
AugDrop" と "MixLoss" という2つの新しいアルゴリズムを開発し、データ拡張におけるデータのバイアスを補正する。
論文 参考訳(メタデータ) (2020-10-03T03:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。