論文の概要: Data vs. Model Machine Learning Fairness Testing: An Empirical Study
- arxiv url: http://arxiv.org/abs/2401.07697v1
- Date: Mon, 15 Jan 2024 14:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:58:02.772723
- Title: Data vs. Model Machine Learning Fairness Testing: An Empirical Study
- Title(参考訳): データ対モデル機械学習フェアネステスト:実証的研究
- Authors: Arumoy Shome and Luis Cruz and Arie van Deursen
- Abstract要約: モデルトレーニング前後の公平性をテストすることによって、より包括的なアプローチを評価するための第一歩を踏み出します。
モデル依存度と独立公平度の関係を実証的に分析し,提案手法の有効性を評価する。
以上の結果から, トレーニング前の公平性テストは, バイアスデータ収集プロセスの早期取得において, より安価かつ効果的な手段であることが示唆された。
- 参考スコア(独自算出の注目度): 23.535630175567146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although several fairness definitions and bias mitigation techniques exist in
the literature, all existing solutions evaluate fairness of Machine Learning
(ML) systems after the training stage. In this paper, we take the first steps
towards evaluating a more holistic approach by testing for fairness both before
and after model training. We evaluate the effectiveness of the proposed
approach and position it within the ML development lifecycle, using an
empirical analysis of the relationship between model dependent and independent
fairness metrics. The study uses 2 fairness metrics, 4 ML algorithms, 5
real-world datasets and 1600 fairness evaluation cycles. We find a linear
relationship between data and model fairness metrics when the distribution and
the size of the training data changes. Our results indicate that testing for
fairness prior to training can be a ``cheap'' and effective means of catching a
biased data collection process early; detecting data drifts in production
systems and minimising execution of full training cycles thus reducing
development time and costs.
- Abstract(参考訳): 文献にはいくつかのフェアネス定義とバイアス軽減技術が存在するが、既存のソリューションはすべて、トレーニング段階以降の機械学習(ML)システムのフェアネスを評価する。
本稿では,モデルトレーニング前後の公平性をテストすることにより,より全体論的アプローチを評価するための第一歩を踏み出す。
提案手法の有効性を評価し,モデル依存度と独立公平度の関係を実験的に分析し,ML開発ライフサイクル内に配置する。
この研究では、2つの公平度メトリクス、4つのmlアルゴリズム、5つの現実世界データセット、1600の公平性評価サイクルを使用している。
分布とトレーニングデータのサイズが変化すると、データとモデルの公平度メトリクスの線形関係が分かる。
以上の結果から, トレーニング前の公平性テストは, バイアスデータ収集プロセスの早期取得, 実運用システムにおけるデータドリフトの検出, フルトレーニングサイクルの実行の最小化, 開発時間とコストの削減といった, 効果的な方法である可能性が示唆された。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Fairness-Aware Data Valuation for Supervised Learning [4.874780144224057]
本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T18:51:13Z) - Towards Algorithmic Fairness by means of Instance-level Data Re-weighting based on Shapley Values [6.752538702870792]
本稿では,公正なアルゴリズム決定のための新しいインスタンスレベルのデータ再重み付け手法であるFairShapを提案する。
異なる性質のいくつかの最先端データセットに対して、FairShapを実証的に検証する。
ベースラインと同等の精度で、より公平なモデルを生成する方法を示す。
論文 参考訳(メタデータ) (2023-03-03T13:53:36Z) - Provable Fairness for Neural Network Models using Formal Verification [10.90121002896312]
本稿では,ニューラルネットワークモデルの特性を検証する形式的手法を用いて,公平性を向上する手法を提案する。
適切なトレーニングによって、AUCスコアの1%未満のコストで、平均65.4%の不公平さを削減できることを示す。
論文 参考訳(メタデータ) (2022-12-16T16:54:37Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。