論文の概要: A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction
- arxiv url: http://arxiv.org/abs/2010.03155v1
- Date: Wed, 7 Oct 2020 04:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:12:21.888376
- Title: A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction
- Title(参考訳): 文法的誤り訂正における雑音低減のための自己定義戦略
- Authors: Masato Mita, Shun Kiyono, Masahiro Kaneko, Jun Suzuki and Kentaro Inui
- Abstract要約: 既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
- 参考スコア(独自算出の注目度): 54.569707226277735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for grammatical error correction (GEC) largely rely on
supervised learning with manually created GEC datasets. However, there has been
little focus on verifying and ensuring the quality of the datasets, and on how
lower-quality data might affect GEC performance. We indeed found that there is
a non-negligible amount of "noise" where errors were inappropriately edited or
left uncorrected. To address this, we designed a self-refinement method where
the key idea is to denoise these datasets by leveraging the prediction
consistency of existing models, and outperformed strong denoising baseline
methods. We further applied task-specific techniques and achieved
state-of-the-art performance on the CoNLL-2014, JFLEG, and BEA-2019 benchmarks.
We then analyzed the effect of the proposed denoising method, and found that
our approach leads to improved coverage of corrections and facilitated fluency
edits which are reflected in higher recall and overall performance.
- Abstract(参考訳): 既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に大きく依存している。
しかしながら、データセットの品質の検証と保証、低品質のデータがECのパフォーマンスに与える影響についてはほとんど注目されていない。
実際、誤りが不適切に編集されたり、修正されていないという、無視できない量の"ノイズ"があることがわかりました。
そこで我々は,既存のモデルの予測一貫性を活かして,これらのデータセットをデノベートする,というキーとなる自己定義法を考案した。
さらに,タスク固有の技術を適用し,CoNLL-2014,JFLEG,BEA-2019ベンチマークで最先端のパフォーマンスを達成した。
そして,提案手法の効果を解析し,提案手法が補正のカバレッジ向上につながり,高いリコールと全体的なパフォーマンスに反映されるフルエンシー編集が促進されることを見出した。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - Dataset Condensation with Contrastive Signals [41.195453119305746]
勾配マッチングに基づくデータセット合成(DC)手法は、データ効率の学習タスクに適用した場合、最先端のパフォーマンスを達成することができる。
本研究では,既存のDC手法が,タスク関連情報がトレーニングデータセットの重要な部分を形成する場合に,ランダム選択法よりも性能が劣ることを示す。
本稿では,クラス間の差異を効果的に捉えるために,損失関数を変更することで,コントラスト信号(DCC)を用いたデータセット凝縮を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:05:32Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。