論文の概要: Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction
- arxiv url: http://arxiv.org/abs/2407.14210v2
- Date: Mon, 23 Sep 2024 16:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:46:34.730025
- Title: Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction
- Title(参考訳): Fair Overlap Number of Balls (Fair-ONB): バイアス低減のためのデータ構造に基づくアンダーサンプリング法
- Authors: José Daniel Pascual-Triana, Alberto Fernández, Paulo Novais, Francisco Herrera,
- Abstract要約: 信頼できる人工知能における分類問題に関する重要な問題の1つは、異なるクラスの予測において公平性を保証することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
本研究は,各データ群のデータ形態を利用したアンダーサンプリング手法であるフェアオーバーラップボール数(Fair-ONB)を提案する。
- 参考スコア(独自算出の注目度): 8.691440960669649
- License:
- Abstract: One of the key issues regarding classification problems in Trustworthy Artificial Intelligence is ensuring Fairness in the prediction of different classes when protected (sensitive) features are present. Data quality is critical in these cases, as biases in training data can be reflected in machine learning, impacting human lives and failing to comply with current regulations. One strategy to improve data quality and avoid these problems is preprocessing the dataset. Instance selection via undersampling can foster balanced learning of classes and protected feature values. Performing undersampling in class overlap areas close to the decision boundary should bolster the impact on the classifier. This work proposes Fair Overlap Number of Balls (Fair-ONB), an undersampling method that harnesses the data morphology of the different data groups (obtained from the combination of classes and protected feature values) to perform guided undersampling in overlap areas. It employs attributes of the ball coverage of the groups, such as the radius, number of covered instances and density, to select the most suitable areas for undersampling and reduce bias. Results show that the Fair-ONB method improves model Fairness with low impact on the classifier's predictive performance.
- Abstract(参考訳): 信頼できる人工知能における分類問題に関する重要な問題の1つは、保護された(感受性のある)特徴が存在する場合に、異なるクラスの予測において公平性を確保することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
データ品質を改善し、これらの問題を避けるための戦略のひとつは、データセットを前処理することだ。
アンダーサンプリングによるインスタンス選択は、クラスのバランスのとれた学習と保護された特徴値を促進することができる。
決定境界に近いクラスオーバーラップ領域でのアンダーサンプリングの実行は、分類器への影響を加速させる必要がある。
本研究は,異なるデータ群(クラスと保護された特徴値の組み合わせから得られる)のデータ形態を利用するアンダーサンプリング手法であるフェアオーバーラップナンバー・オブ・ボール(Fair-ONB)を提案する。
これは、半径、カバーされたインスタンス数、密度などのグループのボールカバレッジの属性を使用して、アンダーサンプリングとバイアス低減に最も適した領域を選択する。
その結果,Fair-ONB法はモデルフェアネスを,分類器の予測性能に低い影響で改善することを示した。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Does Data Repair Lead to Fair Models? Curating Contextually Fair Data To
Reduce Model Bias [10.639605996067534]
コンテキスト情報は、より優れた表現を学び、精度を向上させるために、ディープニューラルネットワーク(DNN)にとって貴重なキューである。
COCOでは、多くの対象カテゴリーは、男性よりも男性の方がはるかに高い共起性を持ち、男性に有利なDNNの予測を偏見を与える可能性がある。
本研究では, 変動係数を用いたデータ修復アルゴリズムを導入し, 保護されたクラスに対して, 公平かつ文脈的にバランスの取れたデータをキュレートする。
論文 参考訳(メタデータ) (2021-10-20T06:00:03Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Null It Out: Guarding Protected Attributes by Iterative Nullspace
Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。
提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:02:50Z) - Dynamic Decision Boundary for One-class Classifiers applied to
non-uniformly Sampled Data [0.9569316316728905]
パターン認識の典型的な問題は、一様でないサンプルデータである。
本稿では,動的決定境界を持つ最小スパンニング木に基づく一クラス分類器を提案する。
論文 参考訳(メタデータ) (2020-04-05T18:29:36Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。