論文の概要: Fair-OBNC: Correcting Label Noise for Fairer Datasets
- arxiv url: http://arxiv.org/abs/2410.06214v2
- Date: Mon, 14 Oct 2024 15:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:31:16.307703
- Title: Fair-OBNC: Correcting Label Noise for Fairer Datasets
- Title(参考訳): Fair-OBNC:Fairerデータセットのラベルノイズの修正
- Authors: Inês Oliveira e Silva, Sérgio Jesus, Hugo Ferreira, Pedro Saleiro, Inês Sousa, Pedro Bizarro, Carlos Soares,
- Abstract要約: トレーニングデータのバイアスは ラベルノイズと関連しています
このようなバイアスデータに基づいてトレーニングされたモデルは、センシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。
公平性を考慮したラベルノイズ補正法であるFair-OBNCを提案する。
- 参考スコア(独自算出の注目度): 9.427445881721814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data used by automated decision-making systems, such as Machine Learning models, often reflects discriminatory behavior that occurred in the past. These biases in the training data are sometimes related to label noise, such as in COMPAS, where more African-American offenders are wrongly labeled as having a higher risk of recidivism when compared to their White counterparts. Models trained on such biased data may perpetuate or even aggravate the biases with respect to sensitive information, such as gender, race, or age. However, while multiple label noise correction approaches are available in the literature, these focus on model performance exclusively. In this work, we propose Fair-OBNC, a label noise correction method with fairness considerations, to produce training datasets with measurable demographic parity. The presented method adapts Ordering-Based Noise Correction, with an adjusted criterion of ordering, based both on the margin of error of an ensemble, and the potential increase in the observed demographic parity of the dataset. We evaluate Fair-OBNC against other different pre-processing techniques, under different scenarios of controlled label noise. Our results show that the proposed method is the overall better alternative within the pool of label correction methods, being capable of attaining better reconstructions of the original labels. Models trained in the corrected data have an increase, on average, of 150% in demographic parity, when compared to models trained in data with noisy labels, across the considered levels of label noise.
- Abstract(参考訳): 機械学習モデルのような自動意思決定システムで使用されるデータは、過去に起こった差別的な振る舞いを反映していることが多い。
トレーニングデータのこれらのバイアスは、しばしばCompASのようなラベルノイズと関連している。
このような偏りのあるデータに基づいてトレーニングされたモデルは、性別、人種、年齢といったセンシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。
しかし、文献では複数のラベルノイズ補正手法が利用可能であるが、これらはモデル性能にのみ焦点をあてている。
本研究では,公正度を考慮したラベルノイズ補正手法であるFair-OBNCを提案する。
提案手法は、アンサンブルの誤差の限界と、観測されたデータセットの人口統計値の潜在的増加の両方に基づいて、順序付けの基準を調整した順序付けに基づく雑音補正に適応する。
制御されたラベルノイズの異なるシナリオ下で,Fair-OBNCを他の異なる前処理手法と比較した。
これらの結果から,提案手法はラベル補正手法のプール内での総合的に優れた代替手段であり,元のラベルの再現性を向上させることができることがわかった。
修正されたデータでトレーニングされたモデルは、ラベルノイズの考慮レベルを越えて、ノイズのあるラベルを持つデータでトレーニングされたモデルと比較して、平均して150%の割合で増加します。
関連論文リスト
- Mitigating Matching Biases Through Score Calibration [1.5530839016602822]
レコードマッチングにおけるバイアスの結果は、人口集団間での不平等なエラー率をもたらし、倫理的および法的懸念を提起する。
本稿では,従来の回帰モデルに適用された公正度指標を適用し,レコードマッチングにおけるすべてのしきい値の累積バイアスを評価する。
本稿では, 最適輸送理論とワッサーシュタインバリセンタを利用して, 階層群間でのマッチングスコアのバランスをとることを目的とした, ポストプロセッシングキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T21:01:40Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - On the Impact of Data Quality on Image Classification Fairness [11.329873246415797]
複数の画像分類データセットにまたがる様々なアルゴリズムにおける重要公平度の測定を行う。
我々は、ラベル内のノイズをトレーニングセット内のデータのラベル付けの不正確さ、データのノイズをデータの歪みとして記述する。
元のデータセットにノイズを加えることで、トレーニングデータの品質と、トレーニングデータ上でトレーニングされたモデルのアウトプットの公平性との関係を探ることができる。
論文 参考訳(メタデータ) (2023-05-02T16:54:23Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Bias-Tolerant Fair Classification [20.973916494320246]
ラベルバイアスと選択バイアスは、機械学習の結果の公平性を妨げるデータにおける2つの理由である。
本稿では,ラベルバイアスと選択バイアスの影響を受けるデータを用いて,利益を回復しようとするBias-TolerantFAirRegularizedLoss (B-FARL)を提案する。
B-FARLはバイアスデータを入力として取り、公正だが潜伏的なデータで訓練されたデータを近似したモデルを呼び出す。
論文 参考訳(メタデータ) (2021-07-07T13:31:38Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Fair Classification with Group-Dependent Label Noise [6.324366770332667]
本研究は,学習ラベルがランダムノイズで破損した環境で,公平な分類器を訓練する方法を検討する。
異種・集団依存の誤差率を考慮せずに、人口格差尺度にパリティ制約を鼻で課すことにより、その結果の精度と公平性を低下させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T22:35:01Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。