論文の概要: Measuring and Mitigating Bias for Tabular Datasets with Multiple Protected Attributes
- arxiv url: http://arxiv.org/abs/2405.19300v3
- Date: Tue, 01 Oct 2024 17:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:29.731926
- Title: Measuring and Mitigating Bias for Tabular Datasets with Multiple Protected Attributes
- Title(参考訳): 複数の保護属性を持つ語彙データセットに対するバイアスの測定と緩和
- Authors: Manh Khoi Duong, Stefan Conrad,
- Abstract要約: 我々は、国籍、年齢、性別など、複数の保護された属性を含むデータセットに焦点を当てる。
新たな差別措置が導入され、研究者や実践者が基礎となるデータセットの公平性を評価するための適切な手段を選択する。
既存のバイアス緩和法であるFairDoの新たな応用について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Motivated by the recital (67) of the current corrigendum of the AI Act in the European Union, we propose and present measures and mitigation strategies for discrimination in tabular datasets. We specifically focus on datasets that contain multiple protected attributes, such as nationality, age, and sex. This makes measuring and mitigating bias more challenging, as many existing methods are designed for a single protected attribute. This paper comes with a twofold contribution: Firstly, new discrimination measures are introduced. These measures are categorized in our framework along with existing ones, guiding researchers and practitioners in choosing the right measure to assess the fairness of the underlying dataset. Secondly, a novel application of an existing bias mitigation method, FairDo, is presented. We show that this strategy can mitigate any type of discrimination, including intersectional discrimination, by transforming the dataset. By conducting experiments on real-world datasets (Adult, Bank, COMPAS), we demonstrate that de-biasing datasets with multiple protected attributes is possible. All transformed datasets show a reduction in discrimination, on average by 28%. Further, these datasets do not compromise any of the tested machine learning models' performances significantly compared to the original datasets. Conclusively, this study demonstrates the effectiveness of the mitigation strategy used and contributes to the ongoing discussion on the implementation of the European Union's AI Act.
- Abstract(参考訳): 欧州連合におけるAI法(AI Act)の現在のコリガンダ(67)のリサイタル(67)に触発された我々は、表付きデータセットの識別のための対策と緩和戦略を提案し、提示する。
具体的には、国籍、年齢、性別など、複数の保護された属性を含むデータセットに焦点を当てます。
これにより、多くの既存のメソッドが単一の保護された属性のために設計されているため、バイアスの測定と緩和がより困難になる。
まず、新たな差別対策が導入される。
これらの尺度は、既存の指標とともに我々のフレームワークに分類され、基礎となるデータセットの公平性を評価するための適切な尺度を選択するために研究者や実践者を導く。
第二に、既存のバイアス緩和法であるFairDoの新たな応用について述べる。
この戦略は、データセットを変換することで、交叉差別を含むあらゆる種類の差別を緩和できることを示す。
実世界のデータセット(Adult, Bank, COMPAS)で実験を行うことで、複数の保護属性を持つデバイアスデータセットが可能であることを示す。
変換されたデータセットはすべて、平均して28%の差別率の低下を示している。
さらに、これらのデータセットは、テスト対象の機械学習モデルのパフォーマンスを、元のデータセットと比較して著しく損なわない。
本研究は,欧州連合(EU)のAI法の適用に関する継続的な議論に寄与し,緩和戦略の有効性を実証するものである。
関連論文リスト
- DispaRisk: Assessing and Interpreting Disparity Risks in Datasets [21.521208250966918]
DispaRiskは、機械学習パイプラインの初期段階におけるデータセットの格差の潜在的なリスクを積極的に評価するように設計されたフレームワークである。
以上の結果から,差別リスクの高いデータセットを識別するDispaRiskの能力,バイアスを伴いやすいモデルファミリー,MLパイプラインにおける識別感受性を高める特徴が示された。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - The Impact of Differential Feature Under-reporting on Algorithmic Fairness [86.275300739926]
解析的に抽出可能な差分特徴のアンダーレポーティングモデルを提案する。
そして、この種のデータバイアスがアルゴリズムの公正性に与える影響を特徴づける。
我々の結果は、実世界のデータ設定では、アンダーレポートが典型的に格差を増大させることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:16:22Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Unfairness Discovery and Prevention For Few-Shot Regression [9.95899391250129]
歴史データの識別(あるいは偏見)に敏感な教師付き数発メタラーニングモデルの公平性について検討する。
偏りのあるデータに基づいてトレーニングされた機械学習モデルは、少数グループのユーザに対して不公平な予測を行う傾向がある。
論文 参考訳(メタデータ) (2020-09-23T22:34:06Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z) - Learning from Discriminatory Training Data [2.1869017389979266]
監視された学習システムは、歴史的データを用いて訓練され、もしデータが差別によって汚染された場合、保護されたグループに対して差別を意図せずに学習する可能性がある。
差別的データセットの訓練にもかかわらず、公正な学習手法は、公正なテストデータセットで良好に機能することを提案する。
論文 参考訳(メタデータ) (2019-12-17T18:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。