論文の概要: Systematic analysis of the impact of label noise correction on ML
Fairness
- arxiv url: http://arxiv.org/abs/2306.15994v1
- Date: Wed, 28 Jun 2023 08:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:15:56.233006
- Title: Systematic analysis of the impact of label noise correction on ML
Fairness
- Title(参考訳): ラベル雑音補正がMLフェアネスに及ぼす影響の系統解析
- Authors: I. Oliveira e Silva, C. Soares, I. Sousa, R. Ghani
- Abstract要約: 偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary, inconsistent, or faulty decision-making raises serious concerns,
and preventing unfair models is an increasingly important challenge in Machine
Learning. Data often reflect past discriminatory behavior, and models trained
on such data may reflect bias on sensitive attributes, such as gender, race, or
age. One approach to developing fair models is to preprocess the training data
to remove the underlying biases while preserving the relevant information, for
example, by correcting biased labels. While multiple label noise correction
methods are available, the information about their behavior in identifying
discrimination is very limited. In this work, we develop an empirical
methodology to systematically evaluate the effectiveness of label noise
correction techniques in ensuring the fairness of models trained on biased
datasets. Our methodology involves manipulating the amount of label noise and
can be used with fairness benchmarks but also with standard ML datasets. We
apply the methodology to analyze six label noise correction methods according
to several fairness metrics on standard OpenML datasets. Our results suggest
that the Hybrid Label Noise Correction method achieves the best trade-off
between predictive performance and fairness. Clustering-Based Correction can
reduce discrimination the most, however, at the cost of lower predictive
performance.
- Abstract(参考訳): 任意、矛盾、あるいは欠陥のある意思決定は深刻な懸念を生じさせ、不公平なモデルを防ぐことは、機械学習においてますます重要な課題である。
データはしばしば過去の差別行動を反映し、そのようなデータに基づいてトレーニングされたモデルは、性別、人種、年齢などのセンシティブな属性に偏りを反映する可能性がある。
公正なモデルを開発するための1つのアプローチは、トレーニングデータを前処理して、例えばバイアス付きラベルを修正することで、関連する情報を保持しながら、基礎となるバイアスを取り除くことである。
複数のラベルのノイズ補正手法が利用可能であるが、識別におけるその行動に関する情報は非常に限られている。
本研究では,ラベルノイズ補正手法の有効性を定量的に評価し,偏りのあるデータセットで学習したモデルの公平性を保証する実験手法を開発した。
提案手法はラベルノイズ量を操作することで,公平性ベンチマークだけでなく,標準mlデータセットでも使用できる。
提案手法を適用し,標準OpenMLデータセットの公平度測定値に基づいて6つのラベルノイズ補正手法を解析する。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
しかしながら、クラスタリングに基づく補正は、予測パフォーマンスを低下させるコストで、最も差別を低減できる。
関連論文リスト
- Fair-OBNC: Correcting Label Noise for Fairer Datasets [9.427445881721814]
トレーニングデータのバイアスは ラベルノイズと関連しています
このようなバイアスデータに基づいてトレーニングされたモデルは、センシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。
公平性を考慮したラベルノイズ補正法であるFair-OBNCを提案する。
論文 参考訳(メタデータ) (2024-10-08T17:18:18Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Quantifying and mitigating the impact of label errors on model disparity
metrics [14.225423850241675]
本研究では,ラベル誤差がモデルの不均一度指標に与える影響について検討する。
グループキャリブレーションやその他のメトリクスは、トレインタイムやテストタイムのラベルエラーに敏感である。
本稿では,モデルの群差尺度に対するトレーニング入力ラベルの影響を推定する手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T02:18:45Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Fair Classification with Group-Dependent Label Noise [6.324366770332667]
本研究は,学習ラベルがランダムノイズで破損した環境で,公平な分類器を訓練する方法を検討する。
異種・集団依存の誤差率を考慮せずに、人口格差尺度にパリティ制約を鼻で課すことにより、その結果の精度と公平性を低下させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T22:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。