論文の概要: Handling Realistic Label Noise in BERT Text Classification
- arxiv url: http://arxiv.org/abs/2305.16337v1
- Date: Tue, 23 May 2023 18:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:59:31.955718
- Title: Handling Realistic Label Noise in BERT Text Classification
- Title(参考訳): BERTテキスト分類における現実的ラベルノイズの扱い
- Authors: Maha Tufail Agro, Hanan Aldarmaki
- Abstract要約: 実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labels noise refers to errors in training labels caused by cheap data
annotation methods, such as web scraping or crowd-sourcing, which can be
detrimental to the performance of supervised classifiers. Several methods have
been proposed to counteract the effect of random label noise in supervised
classification, and some studies have shown that BERT is already robust against
high rates of randomly injected label noise. However, real label noise is not
random; rather, it is often correlated with input features or other
annotator-specific factors. In this paper, we evaluate BERT in the presence of
two types of realistic label noise: feature-dependent label noise, and
synthetic label noise from annotator disagreements. We show that the presence
of these types of noise significantly degrades BERT classification performance.
To improve robustness, we evaluate different types of ensembles and
noise-cleaning methods and compare their effectiveness against label noise
across different datasets.
- Abstract(参考訳): ラベルノイズ(英語: labels noise)とは、webスクレイピングやクラウドソーシングといった安価なデータアノテーションメソッドによって引き起こされる、教師付き分類器のパフォーマンスを損なう可能性のあるラベルのトレーニングエラーを指す。
教師付き分類における無作為ラベルノイズの影響に対処するいくつかの手法が提案されており、いくつかの研究は、ベルトが既に無作為注入ラベルノイズの高率に対して頑健であることを証明している。
しかし、実際のラベルノイズはランダムではなく、入力特徴や他の注釈器特有の要因と関連付けられることが多い。
本稿では,特徴依存ラベルノイズとアノテータの不一致による合成ラベルノイズという,2種類の現実的なラベルノイズの存在下でのBERTの評価を行う。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
頑健性を向上させるため,異なる種類のアンサンブルとノイズクリーニング法を評価し,異なるデータセット間のラベルノイズに対する効果を比較した。
関連論文リスト
- Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks [1.261491746208123]
本研究の目的は,ラベルノイズが勾配ブースト決定木に及ぼす影響とそれらの効果を緩和する方法を検討することである。
提案手法は,成人のデータセットに対して最先端のノイズ検出性能を示し,成人および乳癌のデータセットに対して最も高い分類精度とリコールを実現する。
論文 参考訳(メタデータ) (2024-09-13T09:09:24Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning from Time Series under Temporal Label Noise [23.39598516168891]
まず、時系列の逐次分類のための未検討問題である時間ラベルノイズを提案し、定式化する。
提案手法は,実データと合成データを用いた多種多様な時間ラベルノイズ関数の存在下での最先端性能につながることを示す。
論文 参考訳(メタデータ) (2024-02-06T20:56:31Z) - Learning to Correct Noisy Labels for Fine-Grained Entity Typing via
Co-Prediction Prompt Tuning [9.885278527023532]
FETにおける雑音補正のためのコプレディション・プロンプト・チューニングを提案する。
ラベル付きラベルをリコールするために予測結果を統合し、区別されたマージンを用いて不正確なラベルを識別する。
広範に使われている3つのFETデータセットの実験結果から,我々のノイズ補正アプローチはトレーニングサンプルの品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-10-23T06:04:07Z) - Generating the Ground Truth: Synthetic Data for Soft Label and Label Noise Research [0.0]
実世界のデータからノイズのないデータセットを作成するためのフレームワークであるSynLABELを紹介する。
ラベルノイズを精度よく定量化する能力と,既存の手法による改善を実証する。
論文 参考訳(メタデータ) (2023-09-08T13:31:06Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Label Noise in Adversarial Training: A Novel Perspective to Study Robust
Overfitting [45.58217741522973]
逆行訓練においてラベルノイズが存在することを示す。
このようなラベルノイズは、正反対例の真のラベル分布とクリーン例から受け継いだラベルとのミスマッチに起因する。
本稿では,ラベルノイズと頑健なオーバーフィッティングに対処するため,ラベルの自動校正手法を提案する。
論文 参考訳(メタデータ) (2021-10-07T01:15:06Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Class2Simi: A Noise Reduction Perspective on Learning with Noisy Labels [98.13491369929798]
そこで我々は,ノイズのあるクラスラベルを持つデータポイントを,ノイズの多い類似ラベルを持つデータペアに変換するClass2Simiというフレームワークを提案する。
Class2Simiは、この変換がミニバッチのオンザフライであるだけでなく、モデル予測上の損失をペアワイズに変化させるため、計算的に効率的である。
論文 参考訳(メタデータ) (2020-06-14T07:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。