論文の概要: Fairness-Aware Data Valuation for Supervised Learning
- arxiv url: http://arxiv.org/abs/2303.16963v1
- Date: Wed, 29 Mar 2023 18:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:20:10.577226
- Title: Fairness-Aware Data Valuation for Supervised Learning
- Title(参考訳): 教師付き学習のための公平性を考慮したデータ評価
- Authors: Jos\'e Pombal, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro
- Abstract要約: 本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
- 参考スコア(独自算出の注目度): 4.874780144224057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation is a ML field that studies the value of training instances
towards a given predictive task. Although data bias is one of the main sources
of downstream model unfairness, previous work in data valuation does not
consider how training instances may influence both performance and fairness of
ML models. Thus, we propose Fairness-Aware Data vauatiOn (FADO), a data
valuation framework that can be used to incorporate fairness concerns into a
series of ML-related tasks (e.g., data pre-processing, exploratory data
analysis, active learning). We propose an entropy-based data valuation metric
suited to address our two-pronged goal of maximizing both performance and
fairness, which is more computationally efficient than existing metrics. We
then show how FADO can be applied as the basis for unfairness mitigation
pre-processing techniques. Our methods achieve promising results -- up to a 40
p.p. improvement in fairness at a less than 1 p.p. loss in performance compared
to a baseline -- and promote fairness in a data-centric way, where a deeper
understanding of data quality takes center stage.
- Abstract(参考訳): データバリュエーション(Data valuation)は、トレーニングインスタンスの価値を所定の予測タスクに向けて研究するML分野である。
データバイアスは下流モデルの不公平性の主要な原因の1つであるが、データ評価におけるこれまでの研究は、トレーニングインスタンスがMLモデルの性能と公正性の両方にどのように影響するかを考慮していない。
そこで本研究では,データ評価フレームワークであるfairness-aware data vauation(fado)を提案する。
本稿では,既存の指標よりも計算効率のよい性能と公平性の両方を最大化するエントロピーに基づくデータ評価指標を提案する。
次に,不公平化前処理技術の基礎としてFADOを適用する方法を示す。
提案手法は,データ品質の深い理解が中心となるデータ中心の手法で公正性向上を実現する。
関連論文リスト
- Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。
我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。
提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文 参考訳(メタデータ) (2025-02-06T18:51:28Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。
その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Data Preparation for Fairness-Performance Trade-Offs: A Practitioner-Friendly Alternative? [11.172805305320592]
トレーニング前のバイアスを軽減する前処理技術は効果的だが、モデルの性能に影響を与え、統合が困難になる可能性がある。
本報告では,MLライフサイクルの初期段階において,最適に選択されたフェアネス・アウェアの実践が,フェアネスとパフォーマンスの両面でいかに向上するかを実証的に評価する。
FATEを用いてフェアネスとパフォーマンスのトレードオフを分析し、FATEが選択したパイプラインと、前処理のバイアス緩和技術による結果を比較する。
論文 参考訳(メタデータ) (2024-12-20T14:12:39Z) - Data Acquisition for Improving Model Fairness using Reinforcement Learning [3.3916160303055563]
我々は、下流の機械学習モデルを訓練し、その公正性を迅速に改善するためのラベル付きデータポイントの獲得に重点を置いている。
データバリュエーションの考え方に基づいたデータ取得フレームワークであるDataSiftを紹介します。
いくつかの実世界および合成データセット上でDataSiftを実証的に評価し、いくつかのデータポイントを取得しながら、機械学習モデルの公平性を著しく改善できることを示す。
論文 参考訳(メタデータ) (2024-12-04T03:56:54Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data vs. Model Machine Learning Fairness Testing: An Empirical Study [23.535630175567146]
モデルトレーニング前後の公平性をテストすることによって、より包括的なアプローチを評価するための第一歩を踏み出します。
モデル依存度と独立公平度の関係を実証的に分析し,提案手法の有効性を評価する。
以上の結果から, トレーニング前の公平性テストは, バイアスデータ収集プロセスの早期取得において, より安価かつ効果的な手段であることが示唆された。
論文 参考訳(メタデータ) (2024-01-15T14:14:16Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。