論文の概要: Fairness Without Harm: An Influence-Guided Active Sampling Approach
- arxiv url: http://arxiv.org/abs/2402.12789v3
- Date: Fri, 08 Nov 2024 10:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:58.880808
- Title: Fairness Without Harm: An Influence-Guided Active Sampling Approach
- Title(参考訳): ハームのないフェアネス:インフルエンスガイド型アクティブサンプリングアプローチ
- Authors: Jinlong Pang, Jialu Wang, Zhaowei Zhu, Yuanshun Yao, Chen Qian, Yang Liu,
- Abstract要約: 我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.173195437797766
- License:
- Abstract: The pursuit of fairness in machine learning (ML), ensuring that the models do not exhibit biases toward protected demographic groups, typically results in a compromise scenario. This compromise can be explained by a Pareto frontier where given certain resources (e.g., data), reducing the fairness violations often comes at the cost of lowering the model accuracy. In this work, we aim to train models that mitigate group fairness disparity without causing harm to model accuracy. Intuitively, acquiring more data is a natural and promising approach to achieve this goal by reaching a better Pareto frontier of the fairness-accuracy tradeoff. The current data acquisition methods, such as fair active learning approaches, typically require annotating sensitive attributes. However, these sensitive attribute annotations should be protected due to privacy and safety concerns. In this paper, we propose a tractable active data sampling algorithm that does not rely on training group annotations, instead only requiring group annotations on a small validation set. Specifically, the algorithm first scores each new example by its influence on fairness and accuracy evaluated on the validation dataset, and then selects a certain number of examples for training. We theoretically analyze how acquiring more data can improve fairness without causing harm, and validate the possibility of our sampling approach in the context of risk disparity. We also provide the upper bound of generalization error and risk disparity as well as the corresponding connections. Extensive experiments on real-world data demonstrate the effectiveness of our proposed algorithm. Our code is available at https://github.com/UCSC-REAL/FairnessWithoutHarm.
- Abstract(参考訳): 機械学習(ML)における公正性の追求は、モデルが保護された人口集団に対する偏見を示しないことを保証する。
この妥協は、特定のリソース(例えばデータ)を与えられたParetoフロンティアによって説明できる。
本研究では,モデルの精度を損なうことなく,グループフェアネスの格差を軽減するモデルを訓練することを目的とする。
直感的には、より多くのデータを取得することは、公平さと正確性のトレードオフのより良いParetoフロンティアに到達することで、この目標を達成するための自然で有望なアプローチである。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
しかしながら、これらのセンシティブな属性アノテーションは、プライバシと安全上の懸念から保護されるべきである。
本稿では,グループアノテーションに頼らず,小さな検証セットにグループアノテーションを必要とするのではなく,抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
具体的には、アルゴリズムはまず、検証データセット上で評価された公正さと正確性に影響を与えることで、新しいサンプルをスコアし、次に、トレーニングのための一定の数のサンプルを選択する。
理論的には、より多くのデータを取得することで、害を生じさせることなく公正性を向上し、リスク格差の文脈でサンプリングアプローチの可能性を検証する。
また、一般化誤差とリスク格差と対応する接続の上限も提供する。
実世界のデータに対する大規模な実験により,提案アルゴリズムの有効性が示された。
私たちのコードはhttps://github.com/UCSC-REAL/FairnessWithoutHarm.comで利用可能です。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Towards Harmless Rawlsian Fairness Regardless of Demographic Prior [57.30787578956235]
トレーニングセットに事前の人口統計が提供されない場合に,有効性を損なうことなく公平性を達成する可能性を探る。
本稿では,経験的損失の最適セット内でのトレーニング損失の分散を最小限に抑えるため,VFairという簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:34Z) - Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning [49.417414031031264]
本稿では,自己教師型学習環境におけるフェアエンコーダの学習について検討する。
すべてのデータはラベル付けされておらず、そのごく一部だけが機密属性で注釈付けされている。
論文 参考訳(メタデータ) (2024-06-09T08:11:12Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Does Data Repair Lead to Fair Models? Curating Contextually Fair Data To
Reduce Model Bias [10.639605996067534]
コンテキスト情報は、より優れた表現を学び、精度を向上させるために、ディープニューラルネットワーク(DNN)にとって貴重なキューである。
COCOでは、多くの対象カテゴリーは、男性よりも男性の方がはるかに高い共起性を持ち、男性に有利なDNNの予測を偏見を与える可能性がある。
本研究では, 変動係数を用いたデータ修復アルゴリズムを導入し, 保護されたクラスに対して, 公平かつ文脈的にバランスの取れたデータをキュレートする。
論文 参考訳(メタデータ) (2021-10-20T06:00:03Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Unfairness Discovery and Prevention For Few-Shot Regression [9.95899391250129]
歴史データの識別(あるいは偏見)に敏感な教師付き数発メタラーニングモデルの公平性について検討する。
偏りのあるデータに基づいてトレーニングされた機械学習モデルは、少数グループのユーザに対して不公平な予測を行う傾向がある。
論文 参考訳(メタデータ) (2020-09-23T22:34:06Z) - Recovering from Biased Data: Can Fairness Constraints Improve Accuracy? [11.435833538081557]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、バイアスがあるだけでなく、真のデータ分布に最適な精度を持つ分類器を生成する。
公平性に制約されたERMによるこの問題の是正能力について検討する。
また、トレーニングデータの再重み付け、等化オッド、復号化パリティなど、他のリカバリ手法についても検討する。
論文 参考訳(メタデータ) (2019-12-02T22:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。