論文の概要: SelfMix: Robust Learning Against Textual Label Noise with Self-Mixup
Training
- arxiv url: http://arxiv.org/abs/2210.04525v2
- Date: Tue, 11 Oct 2022 02:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 11:10:05.410216
- Title: SelfMix: Robust Learning Against Textual Label Noise with Self-Mixup
Training
- Title(参考訳): SelfMix: 自己改善トレーニングによるテキストラベルノイズに対するロバスト学習
- Authors: Dan Qiao, Chenchen Dai, Yuyang Ding, Juntao Li, Qiang Chen, Wenliang
Chen, Min Zhang
- Abstract要約: SelfMixは、テキスト分類タスクのラベルノイズを処理するためのシンプルで効果的な方法である。
本手法は,1つのモデル上でのドロップアウト機構を利用して,自己学習における確認バイアスを低減する。
- 参考スコア(独自算出の注目度): 15.877178854064708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The conventional success of textual classification relies on annotated data,
and the new paradigm of pre-trained language models (PLMs) still requires a few
labeled data for downstream tasks. However, in real-world applications, label
noise inevitably exists in training data, damaging the effectiveness,
robustness, and generalization of the models constructed on such data.
Recently, remarkable achievements have been made to mitigate this dilemma in
visual data, while only a few explore textual data. To fill this gap, we
present SelfMix, a simple yet effective method, to handle label noise in text
classification tasks. SelfMix uses the Gaussian Mixture Model to separate
samples and leverages semi-supervised learning. Unlike previous works requiring
multiple models, our method utilizes the dropout mechanism on a single model to
reduce the confirmation bias in self-training and introduces a textual-level
mixup training strategy. Experimental results on three text classification
benchmarks with different types of text show that the performance of our
proposed method outperforms these strong baselines designed for both textual
and visual data under different noise ratios and noise types. Our code is
available at \url{https://github.com/noise-learning/SelfMix}.
- Abstract(参考訳): 従来のテキスト分類の成功は注釈付きデータに依存しており、新しい訓練済み言語モデル(PLM)のパラダイムは下流タスクにラベル付きデータを必要とする。
しかし、実世界のアプリケーションでは、トレーニングデータには必然的にラベルノイズが存在し、そのようなデータ上に構築されたモデルの有効性、堅牢性、一般化を損なう。
近年、視覚データのジレンマを軽減するために注目すべき成果が得られているが、テキストデータの探索はごくわずかである。
このギャップを埋めるために,テキスト分類タスクにおけるラベルノイズを処理するための,単純かつ効果的な手法であるselfmixを提案する。
selfmixはガウス混合モデルを使ってサンプルを分離し、半教師あり学習を利用する。
複数のモデルを必要とする従来の手法とは異なり、本手法では1つのモデルのドロップアウト機構を用いて自己学習における確認バイアスを低減し、テキストレベルの混合学習戦略を導入する。
3種類のテキスト分類ベンチマークを用いた実験の結果,提案手法の性能は,ノイズ比やノイズタイプが異なるテキストデータと視覚データの両方に対して,これらの強力なベースラインよりも優れていることがわかった。
私たちのコードは \url{https://github.com/noise-learning/SelfMix} で利用可能です。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Elevating Code-mixed Text Handling through Auditory Information of Words [24.53638976212391]
本稿では,SOUNDEXの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
論文 参考訳(メタデータ) (2023-10-27T14:03:30Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。