論文の概要: Fair Data Representation for Machine Learning at the Pareto Frontier
- arxiv url: http://arxiv.org/abs/2201.00292v4
- Date: Fri, 24 Nov 2023 15:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 05:19:41.959705
- Title: Fair Data Representation for Machine Learning at the Pareto Frontier
- Title(参考訳): パレートフロンティアにおける機械学習のための公正なデータ表現
- Authors: Shizhou Xu, Thomas Strohmer
- Abstract要約: 教師付き学習による公正なデータ表現のための前処理アルゴリズムを提案する。
本研究では,学習結果の条件分布(センシティブな情報)からバリセンタへの分布から得られるワッサースタイン2の測地線が,平均対のワッサースタイン2距離と$L2$-lossの間のフロンティアを特徴付けることを示す。
数値シミュレーションでは,(1)事前処理ステップは任意の条件予測推定学習法と未知のデータとを併用し,(2)公正表現は,残余データの機密データに対する推論能力を制限することによりセンシティブ情報を保護し,(3)最適アフィンを生成する。
- 参考スコア(独自算出の注目度): 3.6052935394000234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning powered decision-making becomes increasingly important in
our daily lives, it is imperative to strive for fairness in the underlying data
processing. We propose a pre-processing algorithm for fair data representation
via which supervised learning results in estimations of the Pareto frontier
between prediction error and statistical disparity. Particularly, the present
work applies the optimal affine transport to approach the post-processing
Wasserstein-2 barycenter characterization of the optimal fair $L^2$-objective
supervised learning via a pre-processing data deformation. Furthermore, we show
that the Wasserstein-2 geodesics from the conditional (on sensitive
information) distributions of the learning outcome to their barycenter
characterizes the Pareto frontier between $L^2$-loss and the average pairwise
Wasserstein-2 distance among sensitive groups on the learning outcome.
Numerical simulations underscore the advantages: (1) the pre-processing step is
compositive with arbitrary conditional expectation estimation supervised
learning methods and unseen data; (2) the fair representation protects the
sensitive information by limiting the inference capability of the remaining
data with respect to the sensitive data; (3) the optimal affine maps are
computationally efficient even for high-dimensional data.
- Abstract(参考訳): 機械学習による意思決定が日々の生活においてますます重要になるにつれて、基盤となるデータ処理の公平性のために努力することが不可欠である。
本稿では,予測誤差と統計的不一致のパレートフロンティアを教師あり学習により推定する,公平なデータ表現のための前処理アルゴリズムを提案する。
特に,本研究は,処理後のwasserstein-2のバリセンターへのアプローチに最適なアフィントランスポートを適用し,事前処理データ変形による最適fair $l^2$-objective教師付き学習のキャラクタリゼーションを行う。
さらに,学習結果の条件付分布(センシティブ情報上)からのwasserstein-2測地線は,学習結果のセンシティブグループ間のparetofrontier between $l^2$-loss and the average pairwise wasserstein-2 distanceを特徴付ける。
数値シミュレーションでは,(1)事前処理ステップは任意の条件予測推定学習手法と未知のデータとを併用し,(2)公正表現は,その機密データに対する残余データの推論能力を制限することによりセンシティブ情報を保護し,(3)高次元データにおいても最適アフィンマップは計算的に効率的である。
関連論文リスト
- LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - An Operational Perspective to Fairness Interventions: Where and How to
Intervene [9.833760837977222]
フェアネス介入の評価と文脈化のための包括的枠組みを提案する。
予測パリティに関するケーススタディで、我々のフレームワークを実証する。
グループデータを使わずに予測パリティを実現することは困難である。
論文 参考訳(メタデータ) (2023-02-03T07:04:33Z) - Fair Representation Learning using Interpolation Enabled Disentanglement [9.043741281011304]
a) 下流タスクに対する学習された表現の有用性を確保しつつ、公平な不整合表現を同時に学べるか、(b) 提案手法が公正かつ正確であるかどうかに関する理論的知見を提供する。
前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:32:12Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。