論文の概要: Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction
- arxiv url: http://arxiv.org/abs/2407.14210v2
- Date: Mon, 23 Sep 2024 16:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 19:38:31.790469
- Title: Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction
- Title(参考訳): Fair Overlap Number of Balls (Fair-ONB): バイアス低減のためのデータ構造に基づくアンダーサンプリング法
- Authors: José Daniel Pascual-Triana, Alberto Fernández, Paulo Novais, Francisco Herrera,
- Abstract要約: 信頼できる人工知能における分類問題に関する重要な問題の1つは、異なるクラスの予測において公平性を保証することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
本研究は,各データ群のデータ形態を利用したアンダーサンプリング手法であるフェアオーバーラップボール数(Fair-ONB)を提案する。
- 参考スコア(独自算出の注目度): 8.691440960669649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key issues regarding classification problems in Trustworthy Artificial Intelligence is ensuring Fairness in the prediction of different classes when protected (sensitive) features are present. Data quality is critical in these cases, as biases in training data can be reflected in machine learning, impacting human lives and failing to comply with current regulations. One strategy to improve data quality and avoid these problems is preprocessing the dataset. Instance selection via undersampling can foster balanced learning of classes and protected feature values. Performing undersampling in class overlap areas close to the decision boundary should bolster the impact on the classifier. This work proposes Fair Overlap Number of Balls (Fair-ONB), an undersampling method that harnesses the data morphology of the different data groups (obtained from the combination of classes and protected feature values) to perform guided undersampling in overlap areas. It employs attributes of the ball coverage of the groups, such as the radius, number of covered instances and density, to select the most suitable areas for undersampling and reduce bias. Results show that the Fair-ONB method improves model Fairness with low impact on the classifier's predictive performance.
- Abstract(参考訳): 信頼できる人工知能における分類問題に関する重要な問題の1つは、保護された(感受性のある)特徴が存在する場合に、異なるクラスの予測において公平性を確保することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
データ品質を改善し、これらの問題を避けるための戦略のひとつは、データセットを前処理することだ。
アンダーサンプリングによるインスタンス選択は、クラスのバランスのとれた学習と保護された特徴値を促進することができる。
決定境界に近いクラスオーバーラップ領域でのアンダーサンプリングの実行は、分類器への影響を加速させる必要がある。
本研究は,異なるデータ群(クラスと保護された特徴値の組み合わせから得られる)のデータ形態を利用するアンダーサンプリング手法であるフェアオーバーラップナンバー・オブ・ボール(Fair-ONB)を提案する。
これは、半径、カバーされたインスタンス数、密度などのグループのボールカバレッジの属性を使用して、アンダーサンプリングとバイアス低減に最も適した領域を選択する。
その結果,Fair-ONB法はモデルフェアネスを,分類器の予測性能に低い影響で改善することを示した。
関連論文リスト
- Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Local overlap reduction procedure for dynamic ensemble selection [13.304462985219237]
クラス不均衡は、分類モデルにおいて学習をより困難にすることで知られる特徴である。
分類過程における局所クラス重複の影響を最小限に抑えるDS手法を提案する。
実験の結果,提案手法はベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-06-16T21:31:05Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Does Data Repair Lead to Fair Models? Curating Contextually Fair Data To
Reduce Model Bias [10.639605996067534]
コンテキスト情報は、より優れた表現を学び、精度を向上させるために、ディープニューラルネットワーク(DNN)にとって貴重なキューである。
COCOでは、多くの対象カテゴリーは、男性よりも男性の方がはるかに高い共起性を持ち、男性に有利なDNNの予測を偏見を与える可能性がある。
本研究では, 変動係数を用いたデータ修復アルゴリズムを導入し, 保護されたクラスに対して, 公平かつ文脈的にバランスの取れたデータをキュレートする。
論文 参考訳(メタデータ) (2021-10-20T06:00:03Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Robust Fairness under Covariate Shift [11.151913007808927]
保護グループメンバーシップに関して公正な予測を行うことは、分類アルゴリズムの重要な要件となっている。
本稿では,ターゲット性能の面で最悪のケースに対して頑健な予測値を求める手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T04:42:01Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。