論文の概要: Group Benefits Instances Selection for Data Purification
- arxiv url: http://arxiv.org/abs/2403.15694v1
- Date: Sat, 23 Mar 2024 03:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:32:08.105526
- Title: Group Benefits Instances Selection for Data Purification
- Title(参考訳): グループの利益はデータの浄化のためのインスタンスの選択に影響を及ぼす
- Authors: Zhenhuang Cai, Chuanyi Zhang, Dan Huang, Yuanbo Chen, Xiuyun Guan, Yazhou Yao,
- Abstract要約: ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。
本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
- 参考スコア(独自算出の注目度): 21.977432359384835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manually annotating datasets for training deep models is very labor-intensive and time-consuming. To overcome such inferiority, directly leveraging web images to conduct training data becomes a natural choice. Nevertheless, the presence of label noise in web data usually degrades the model performance. Existing methods for combating label noise are typically designed and tested on synthetic noisy datasets. However, they tend to fail to achieve satisfying results on real-world noisy datasets. To this end, we propose a method named GRIP to alleviate the noisy label problem for both synthetic and real-world datasets. Specifically, GRIP utilizes a group regularization strategy that estimates class soft labels to improve noise robustness. Soft label supervision reduces overfitting on noisy labels and learns inter-class similarities to benefit classification. Furthermore, an instance purification operation globally identifies noisy labels by measuring the difference between each training sample and its class soft label. Through operations at both group and instance levels, our approach integrates the advantages of noise-robust and noise-cleaning methods and remarkably alleviates the performance degradation caused by noisy labels. Comprehensive experimental results on synthetic and real-world datasets demonstrate the superiority of GRIP over the existing state-of-the-art methods.
- Abstract(参考訳): ディープモデルをトレーニングするためのデータセットを手動でアノテートすることは、非常に労働集約的で時間を要する。
このような劣悪さを克服するためには、Webイメージを直接活用してトレーニングデータを実行することが自然な選択となる。
それでも、Webデータにラベルノイズがあることは、通常、モデルの性能を低下させる。
既存のラベルノイズと戦う方法は通常、合成ノイズデータセット上で設計およびテストされる。
しかし、実世界のノイズの多いデータセットで満足な結果が得られない傾向にある。
そこで本研究では,合成データセットと実世界のデータセットのノイズラベル問題を緩和するGRIPという手法を提案する。
具体的には、グループ正規化戦略を用いて、クラスソフトラベルを推定し、雑音の堅牢性を改善する。
ソフトレーベルの監督は、ノイズの多いラベルへの過度な適合を減らし、クラス間の類似性を学び、分類に役立てる。
さらに、各トレーニングサンプルとそのクラスソフトラベルの差を計測することにより、インスタンス浄化操作が世界的にノイズラベルを識別する。
グループレベルとインスタンスレベルの両方での操作を通じて、ノイズロスとノイズクリーニングの利点を統合し、ノイズラベルによる性能劣化を著しく軽減する。
合成および実世界のデータセットに関する総合的な実験結果は、既存の最先端手法よりもGRIPの方が優れていることを示す。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。
コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。
実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-05T15:11:09Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Generating the Ground Truth: Synthetic Data for Soft Label and Label Noise Research [0.0]
実世界のデータからノイズのないデータセットを作成するためのフレームワークであるSynLABELを紹介する。
ラベルノイズを精度よく定量化する能力と,既存の手法による改善を実証する。
論文 参考訳(メタデータ) (2023-09-08T13:31:06Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - PARS: Pseudo-Label Aware Robust Sample Selection for Learning with Noisy
Labels [5.758073912084364]
PARS: Pseudo-Label Aware Robust Sample Selectionを提案する。
PARSは生・雑音ラベルと自己学習による擬似ラベルの推定・修正の両方を用いて、すべてのトレーニングサンプルを利用する。
その結果、PARSはCIFAR-10とCIFAR-100データセットに関する広範な研究において、技術の現状を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:31:55Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。