論文の概要: Binary classification with corrupted labels
- arxiv url: http://arxiv.org/abs/2106.09136v1
- Date: Wed, 16 Jun 2021 21:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:41:34.606264
- Title: Binary classification with corrupted labels
- Title(参考訳): 劣化ラベルを用いたバイナリ分類
- Authors: Yonghoon Lee and Rina Foygel Barber
- Abstract要約: 精度の高い予測器に適合することを目標とする分類問題では、トレーニングデータセットに破損したラベルが存在することがさらなる課題となる可能性がある。
例えば、もし正と負のラベルが完全に分離可能であれば、破損したラベルのごく一部は堅牢性を確保して性能を向上させることができる。
以上の結果から, 崩壊したデータポイントの存在は, サンプルサイズの平方根でスケーリングすることで, サンプル全体のごく一部にのみ有効であることが示唆された。
- 参考スコア(独自算出の注目度): 7.957286882973197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a binary classification problem where the goal is to fit an accurate
predictor, the presence of corrupted labels in the training data set may create
an additional challenge. However, in settings where likelihood maximization is
poorly behaved-for example, if positive and negative labels are perfectly
separable-then a small fraction of corrupted labels can improve performance by
ensuring robustness. In this work, we establish that in such settings,
corruption acts as a form of regularization, and we compute precise upper
bounds on estimation error in the presence of corruptions. Our results suggest
that the presence of corrupted data points is beneficial only up to a small
fraction of the total sample, scaling with the square root of the sample size.
- Abstract(参考訳): 精度の高い予測器に適合することが目的のバイナリ分類問題では、トレーニングデータセットに破損したラベルが存在することがさらなる課題となる。
しかし、もし正と負のラベルが完全に分離可能であれば、破損したラベルのごく一部は堅牢性を確保して性能を向上させることができる。
本研究では,このような状況下では,汚職は正規化の一形態として作用し,汚職の存在下で推定誤差の正確な上限を計算する。
以上の結果から, 崩壊したデータポイントの存在は, サンプルサイズの平方根でスケーリングすることで, サンプル全体のごく一部にのみ有効であることが示唆された。
関連論文リスト
- Self Adaptive Threshold Pseudo-labeling and Unreliable Sample Contrastive Loss for Semi-supervised Image Classification [6.920336485308536]
擬似ラベルに基づく半教師付きアプローチは、画像分類において2つの問題に悩まされる。
我々は,各クラスの閾値を動的に調整し,信頼性の高いサンプル数を増やす自己適応型閾値擬似ラベル戦略を開発した。
しきい値以下でラベル付けされていないデータを効果的に活用するために、信頼できないサンプルコントラスト損失を提案する。
論文 参考訳(メタデータ) (2024-07-04T03:04:56Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Two Wrongs Don't Make a Right: Combating Confirmation Bias in Learning
with Label Noise [6.303101074386922]
Robust Label Refurbishment (Robust LR) は、擬似ラベルと信頼度推定技術を組み込んだ新しいハイブリッド手法である。
本手法はラベルノイズと確認バイアスの両方の損傷を軽減できることを示す。
例えば、Robust LRは、実世界のノイズデータセットであるWebVisionにおいて、以前の最高値よりも最大4.5%の絶対的トップ1精度の向上を実現している。
論文 参考訳(メタデータ) (2021-12-06T12:10:17Z) - Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文 参考訳(メタデータ) (2021-06-01T12:53:53Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Fair Classification with Group-Dependent Label Noise [6.324366770332667]
本研究は,学習ラベルがランダムノイズで破損した環境で,公平な分類器を訓練する方法を検討する。
異種・集団依存の誤差率を考慮せずに、人口格差尺度にパリティ制約を鼻で課すことにより、その結果の精度と公平性を低下させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T22:35:01Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。