論文の概要: Dataset Fairness: Achievable Fairness on Your Data With Utility
Guarantees
- arxiv url: http://arxiv.org/abs/2402.17106v1
- Date: Tue, 27 Feb 2024 00:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:09:37.837386
- Title: Dataset Fairness: Achievable Fairness on Your Data With Utility
Guarantees
- Title(参考訳): Dataset Fairness: ユーティリティ保証によるデータに対する達成可能な公正性
- Authors: Muhammad Faaiz Taufiq, Jean-Francois Ton, Yang Liu
- Abstract要約: 機械学習フェアネスでは、異なるセンシティブなグループ間の格差を最小限に抑えるトレーニングモデルが、しばしば精度を低下させる。
本稿では,各データセットに適合する公平性-正確性トレードオフ曲線を近似する計算効率のよい手法を提案する。
- 参考スコア(独自算出の注目度): 18.86725031765862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning fairness, training models which minimize disparity across
different sensitive groups often leads to diminished accuracy, a phenomenon
known as the fairness-accuracy trade-off. The severity of this trade-off
fundamentally depends on dataset characteristics such as dataset imbalances or
biases. Therefore using a uniform fairness requirement across datasets remains
questionable and can often lead to models with substantially low utility. To
address this, we present a computationally efficient approach to approximate
the fairness-accuracy trade-off curve tailored to individual datasets, backed
by rigorous statistical guarantees. By utilizing the You-Only-Train-Once (YOTO)
framework, our approach mitigates the computational burden of having to train
multiple models when approximating the trade-off curve. Moreover, we quantify
the uncertainty in our approximation by introducing confidence intervals around
this curve, offering a statistically grounded perspective on the acceptable
range of fairness violations for any given accuracy threshold. Our empirical
evaluation spanning tabular, image and language datasets underscores that our
approach provides practitioners with a principled framework for
dataset-specific fairness decisions across various data modalities.
- Abstract(参考訳): 機械学習のフェアネスでは、異なるセンシティブなグループ間の格差を最小限に抑えるトレーニングモデルはしばしば精度を低下させる。
このトレードオフの深刻度は、基本的にデータセットの不均衡やバイアスといったデータセット特性に依存します。
したがって、データセットにまたがる均一な公平性要件の使用は依然として疑わしいままであり、実用性がかなり低いモデルに繋がることが多い。
そこで本研究では,厳密な統計保証によって裏打ちされた個別データセットに適合する公平性・正確性トレードオフ曲線を近似する計算効率の高い手法を提案する。
You-Only-Train-Once(YOTO)フレームワークを利用することで、トレードオフ曲線を近似する際に複数のモデルを訓練する際の計算負担を軽減する。
さらに,この曲線の周囲に信頼区間を導入することで近似の不確かさを定量化し,任意の精度閾値に対するフェアネス違反の許容範囲に関する統計的根拠を与える。
表、画像、言語のデータセットにまたがる経験的評価は、我々のアプローチは、さまざまなデータモダリティにわたるデータセット固有の公平性決定のための原則付きフレームワークを実践者に提供することを示しています。
関連論文リスト
- Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。
我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。
提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文 参考訳(メタデータ) (2025-02-06T18:51:28Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - Navigating Towards Fairness with Data Selection [27.731128352096555]
ラベルバイアスを効率的かつ柔軟に緩和するデータ選択法を提案する。
提案手法では,ゼロショット予測器をプロキシモデルとして利用し,クリーンなホールトアウトセットでのトレーニングをシミュレートする。
我々のモダリティ非依存手法は,実験評価において,ラベルバイアスの処理と多種多様なデータセット間の公正性向上に効果的かつ効果的であることが証明された。
論文 参考訳(メタデータ) (2024-12-15T06:11:05Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Beyond Individual and Group Fairness [90.4666341812857]
本稿では,不公平な不公平な苦情に導かれる公平さの新しいデータ駆動モデルを提案する。
我々のモデルは、複数のフェアネス基準をサポートし、それらの潜在的な不整合を考慮に入れている。
論文 参考訳(メタデータ) (2020-08-21T14:14:44Z) - Accuracy and Fairness Trade-offs in Machine Learning: A Stochastic
Multi-Objective Approach [0.0]
機械学習を実生活の意思決定システムに適用すると、予測結果は機密性の高い属性を持つ人々に対して差別され、不公平になる可能性がある。
公正機械学習における一般的な戦略は、予測損失の最小化において、制約や罰則として公正さを含めることである。
本稿では,多目的最適化問題を定式化して公平性を扱うための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T18:51:24Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。