論文の概要: Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels
- arxiv url: http://arxiv.org/abs/2106.00445v1
- Date: Tue, 1 Jun 2021 12:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:13:19.044970
- Title: Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels
- Title(参考訳): 雑音ラベル学習における損失の不確実性を考慮したサンプル選択
- Authors: Xiaobo Xia, Tongliang Liu, Bo Han, Mingming Gong, Jun Yu, Gang Niu,
Masashi Sugiyama
- Abstract要約: ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
- 参考スコア(独自算出の注目度): 145.06552420999986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In learning with noisy labels, the sample selection approach is very popular,
which regards small-loss data as correctly labeled during training. However,
losses are generated on-the-fly based on the model being trained with noisy
labels, and thus large-loss data are likely but not certainly to be incorrect.
There are actually two possibilities of a large-loss data point: (a) it is
mislabeled, and then its loss decreases slower than other data, since deep
neural networks "learn patterns first"; (b) it belongs to an underrepresented
group of data and has not been selected yet. In this paper, we incorporate the
uncertainty of losses by adopting interval estimation instead of point
estimation of losses, where lower bounds of the confidence intervals of losses
derived from distribution-free concentration inequalities, but not losses
themselves, are used for sample selection. In this way, we also give large-loss
but less selected data a try; then, we can better distinguish between the cases
(a) and (b) by seeing if the losses effectively decrease with the uncertainty
after the try. As a result, we can better explore underrepresented data that
are correctly labeled but seem to be mislabeled at first glance. Experiments
demonstrate that the proposed method is superior to baselines and robust to a
broad range of label noise types.
- Abstract(参考訳): ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失はオンザフライで発生し、大容量のデータはおそらく誤りである。
a) ラベルが間違っていて、その損失が他のデータよりも遅くなります。なぜなら、ディープニューラルネットワークが"リーンパターンファースト"であるからです; (b) 不足しているデータのグループに属しており、まだ選択されていないからです。
本稿では,損失の点推定ではなく区間推定を用いて損失の不確実性を取り入れ,分布自由濃度の不等式から生じる損失の信頼区間の低境界をサンプル選択に用いる。
このようにして、大容量だが少ない選択されたデータも試してみると、試行後の不確実性によって損失が効果的に減少するかどうかを見極めることにより、(a)と(b)を区別できる。
結果として、正しくラベル付けされているが、一見すると誤ってラベル付けされているように見える、未表示のデータをより深く探索することができる。
実験により,提案手法はベースラインよりも優れ,幅広いラベルノイズタイプに対して頑健であることが示された。
関連論文リスト
- Self Adaptive Threshold Pseudo-labeling and Unreliable Sample Contrastive Loss for Semi-supervised Image Classification [6.920336485308536]
擬似ラベルに基づく半教師付きアプローチは、画像分類において2つの問題に悩まされる。
我々は,各クラスの閾値を動的に調整し,信頼性の高いサンプル数を増やす自己適応型閾値擬似ラベル戦略を開発した。
しきい値以下でラベル付けされていないデータを効果的に活用するために、信頼できないサンプルコントラスト損失を提案する。
論文 参考訳(メタデータ) (2024-07-04T03:04:56Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Partial-Label Regression [54.74984751371617]
部分ラベル学習は、弱い教師付き学習環境であり、各トレーニング例に候補ラベルのセットをアノテートすることができる。
部分ラベル学習に関する従来の研究は、候補ラベルがすべて離散的な分類設定のみに焦点を当てていた。
本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。
論文 参考訳(メタデータ) (2023-06-15T09:02:24Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - Adaptive Sample Selection for Robust Learning under Label Noise [1.71982924656402]
ディープニューラルネットワーク(DNN)は、ノイズの多いラベル付きデータの存在下で記憶や過度な適合の影響を受けることが示されている。
著名なアルゴリズムのクラスは、カリキュラム学習に動機づけられたサンプル選択戦略に依存している。
本稿では,バッチ統計のみに依存するデータ依存型適応型サンプル選択手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:10:58Z) - Learning from Noisy Labels via Dynamic Loss Thresholding [69.61904305229446]
我々はDLT(Dynamic Loss Thresholding)という新しい手法を提案する。
トレーニングプロセス中、DLTは各サンプルの損失値を記録し、動的損失閾値を算出する。
CIFAR-10/100 と Clothing1M の実験は、最近の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-04-01T07:59:03Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。