論文の概要: On-the-fly Denoising for Data Augmentation in Natural Language
Understanding
- arxiv url: http://arxiv.org/abs/2212.10558v2
- Date: Wed, 31 Jan 2024 13:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 18:18:10.139346
- Title: On-the-fly Denoising for Data Augmentation in Natural Language
Understanding
- Title(参考訳): 自然言語理解におけるデータ拡張のためのオンザフライDenoising
- Authors: Tianqing Fang, Wenxuan Zhou, Fangyu Liu, Hongming Zhang, Yangqiu Song,
Muhao Chen
- Abstract要約: よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
- 参考スコア(独自算出の注目度): 101.46848743193358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Augmentation (DA) is frequently used to provide additional training data
without extra human annotation automatically. However, data augmentation may
introduce noisy data that impairs training. To guarantee the quality of
augmented data, existing methods either assume no noise exists in the augmented
data and adopt consistency training or use simple heuristics such as training
loss and diversity constraints to filter out "noisy" data. However, those
filtered examples may still contain useful information, and dropping them
completely causes a loss of supervision signals. In this paper, based on the
assumption that the original dataset is cleaner than the augmented data, we
propose an on-the-fly denoising technique for data augmentation that learns
from soft augmented labels provided by an organic teacher model trained on the
cleaner original data. To further prevent overfitting on noisy labels, a simple
self-regularization module is applied to force the model prediction to be
consistent across two distinct dropouts. Our method can be applied to general
augmentation techniques and consistently improve the performance on both text
classification and question-answering tasks.
- Abstract(参考訳): データ拡張(DA)は、自動的に追加の人間のアノテーションなしで追加のトレーニングデータを提供するために頻繁に使用される。
しかし、データ拡張はトレーニングを阻害するノイズデータをもたらす可能性がある。
拡張データの品質を保証するため、既存の手法では、拡張データにノイズが存在しないと仮定し、一貫性トレーニングを採用するか、トレーニング損失や多様性制約などの単純なヒューリスティックを使って"ノイズ"データをフィルタリングする。
しかし、これらのフィルタリングされた例は有用な情報を含んでいる可能性があり、それらを落とすと完全に監視信号が失われる。
本稿では,オリジナルデータセットが拡張データよりもクリーンであるという仮定に基づいて,よりクリーンなオリジナルデータに基づいてトレーニングされた有機教師モデルによって提供されるソフト拡張ラベルから学習されるデータ拡張のためのオン・ザ・フライ・デノイジング手法を提案する。
さらにノイズラベルの過度な適合を防止するため、単純な自己正規化モジュールを適用して、2つの異なるドロップアウト間でモデル予測を一貫性を持たせる。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks [3.703767478524629]
ノイズ」自己学習アプローチには、予測整合性を確保し、敵攻撃に対する堅牢性を高めるために、データ拡張技術が組み込まれている。
2つの攻撃的/ヘイト音声データセットについて実験を行い、(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセットで最大1.5%F1マクロとなり、(ii)テキストデータ拡張によるノイズの多い自己学習は、同様の設定でうまく適用されているにもかかわらず、デフォルトの手法と比較して、バックトランスレーションのような最先端の手法であっても、攻撃的およびヘイト音声ドメインのパフォーマンスを低下させることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:35:54Z) - Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal [4.71154003227418]
本稿では,Adaptive GRAdient-based outlier removal を用いて,雑音のあるラベルで学習する新しい手法 AGRAを提案する。
本手法は,サンプルの集合勾配と個々のサンプル勾配を比較して,対応するサンプルがモデルに役立つかどうかを動的に決定する。
いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示している。
論文 参考訳(メタデータ) (2023-06-07T15:10:01Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Meta-Learning for Neural Relation Classification with Distant
Supervision [38.755055486296435]
本稿では,参照データの指導の下で,雑音の多い学習データを重み付けするメタラーニング手法を提案する。
いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的にガイドできることが示されている。
論文 参考訳(メタデータ) (2020-10-26T12:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。