論文の概要: Data Acquisition for Improving Model Fairness using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.03009v1
- Date: Wed, 04 Dec 2024 03:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:02.240339
- Title: Data Acquisition for Improving Model Fairness using Reinforcement Learning
- Title(参考訳): 強化学習を用いたモデルフェアネス向上のためのデータ取得
- Authors: Jahid Hasan, Romila Pradhan,
- Abstract要約: 我々は、下流の機械学習モデルを訓練し、その公正性を迅速に改善するためのラベル付きデータポイントの獲得に重点を置いている。
データバリュエーションの考え方に基づいたデータ取得フレームワークであるDataSiftを紹介します。
いくつかの実世界および合成データセット上でDataSiftを実証的に評価し、いくつかのデータポイントを取得しながら、機械学習モデルの公平性を著しく改善できることを示す。
- 参考スコア(独自算出の注目度): 3.3916160303055563
- License:
- Abstract: Machine learning systems are increasingly being used in critical decision making such as healthcare, finance, and criminal justice. Concerns around their fairness have resulted in several bias mitigation techniques that emphasize the need for high-quality data to ensure fairer decisions. However, the role of earlier stages of machine learning pipelines in mitigating model bias has not been explored well. In this paper, we focus on the task of acquiring additional labeled data points for training the downstream machine learning model to rapidly improve its fairness. Since not all data points in a data pool are equally beneficial to the task of fairness, we generate an ordering in which data points should be acquired. We present DataSift, a data acquisition framework based on the idea of data valuation that relies on partitioning and multi-armed bandits to determine the most valuable data points to acquire. Over several iterations, DataSift selects a partition and randomly samples a batch of data points from the selected partition, evaluates the benefit of acquiring the batch on model fairness, and updates the utility of partitions depending on the benefit. To further improve the effectiveness and efficiency of evaluating batches, we leverage influence functions that estimate the effect of acquiring a batch without retraining the model. We empirically evaluate DataSift on several real-world and synthetic datasets and show that the fairness of a machine learning model can be significantly improved even while acquiring a few data points.
- Abstract(参考訳): 機械学習システムは、医療、金融、刑事司法といった重要な意思決定にますます利用されている。
公平性に関する懸念は、より公平な決定を保証するための高品質なデータの必要性を強調する、いくつかのバイアス緩和技術をもたらした。
しかし、モデルバイアス軽減における機械学習パイプラインの初期段階の役割は、よく調べられていない。
本稿では,下流機械学習モデルを訓練し,その公平性を迅速に向上するためのラベル付きデータポイントの獲得に焦点をあてる。
データプール内のすべてのデータポイントが公平なタスクに等しく有用であるわけではないので、データポイントを取得する順序付けを生成します。
データバリュエーションの考え方に基づいたデータ取得フレームワークであるDataSiftを紹介します。
数回のイテレーションで、DataSiftはパーティションを選択し、選択したパーティションからデータポイントのバッチをランダムにサンプリングし、モデルフェアネスでバッチを取得するメリットを評価し、そのメリットに応じてパーティションの有用性を更新する。
バッチ評価の有効性と効率をさらに向上するため、モデルを再訓練することなくバッチ取得の効果を推定する影響関数を利用する。
いくつかの実世界および合成データセット上でDataSiftを実証的に評価し、いくつかのデータポイントを取得しながら、機械学習モデルの公平性を著しく改善できることを示す。
関連論文リスト
- Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - Fairness-Aware Data Valuation for Supervised Learning [4.874780144224057]
本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T18:51:13Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Improving Fairness for Data Valuation in Federated Learning [39.61504568047234]
本稿では,フェデレートされたシャプリー値の公平性を改善するために,フェデレーションされたシャプリー値と呼ばれる新しい尺度を提案する。
この行列は、最適化から概念やツールを活用することにより、ほぼ低ランクであることが穏やかな条件下で示される。
論文 参考訳(メタデータ) (2021-09-19T02:39:59Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Slice Tuner: A Selective Data Acquisition Framework for Accurate and
Fair Machine Learning Models [10.501265073049447]
モデル精度と公平性を確保するために,Slice Tunerを提案する。
中心となるSlice Tunerは、より多くのデータを得たモデル精度を見積もるスライスの学習曲線を維持している。
我々は,Slice Tunerがモデル精度と公平性において,ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-03-10T06:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。