論文の概要: Assessing Fairness in the Presence of Missing Data
- arxiv url: http://arxiv.org/abs/2112.04899v1
- Date: Tue, 7 Dec 2021 17:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:46:41.042223
- Title: Assessing Fairness in the Presence of Missing Data
- Title(参考訳): 欠落データの存在下での公平性の評価
- Authors: Yiliang Zhang, Qi Long
- Abstract要約: 完全ケースのみを用いて評価された任意のモデルに対して,完全データ領域における公平性を推定する問題について検討する。
我々の研究は、不完全データの解析における公正性保証に関する最初の既知の理論結果を提供する。
- 参考スコア(独自算出の注目度): 2.3605348648054463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Missing data are prevalent and present daunting challenges in real data
analysis. While there is a growing body of literature on fairness in analysis
of fully observed data, there has been little theoretical work on investigating
fairness in analysis of incomplete data. In practice, a popular analytical
approach for dealing with missing data is to use only the set of complete
cases, i.e., observations with all features fully observed to train a
prediction algorithm. However, depending on the missing data mechanism, the
distribution of complete cases and the distribution of the complete data may be
substantially different. When the goal is to develop a fair algorithm in the
complete data domain where there are no missing values, an algorithm that is
fair in the complete case domain may show disproportionate bias towards some
marginalized groups in the complete data domain. To fill this significant gap,
we study the problem of estimating fairness in the complete data domain for an
arbitrary model evaluated merely using complete cases. We provide upper and
lower bounds on the fairness estimation error and conduct numerical experiments
to assess our theoretical results. Our work provides the first known
theoretical results on fairness guarantee in analysis of incomplete data.
- Abstract(参考訳): データ不足は一般的な問題であり、実際のデータ分析における厄介な課題である。
完全観測データの解析における公平性に関する文献が増えているが、不完全データの解析における公平性を調査する理論的研究は少ない。
実際には、欠落データを扱う一般的な分析アプローチは、完全なケースのセット、すなわち予測アルゴリズムをトレーニングするために、すべての機能が完全に観測された観察のみを使用することである。
しかし、データメカニズムの欠如により、完全なケースの分布と完全なデータの分布は大きく異なる可能性がある。
不足値のない完全データ領域で公正なアルゴリズムを開発することが目標である場合、完全データ領域でフェアなアルゴリズムは、完全データ領域内のいくつかの辺境化群に対して不釣り合いなバイアスを示す可能性がある。
この大きなギャップを埋めるために、完全ケースのみを用いて評価した任意のモデルに対して、完全データ領域における公平性を推定する問題を考察する。
フェアネス推定誤差の上限を上下に設定し, 数値実験を行い, 理論的結果を評価する。
我々の研究は、不完全データの解析における公正性保証に関する最初の理論的結果を提供する。
関連論文リスト
- Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。
我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。
提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文 参考訳(メタデータ) (2025-02-06T18:51:28Z) - AIM: Attributing, Interpreting, Mitigating Data Unfairness [40.351282126410545]
既存の公正機械学習(FairML)の研究は、モデル予測における差別バイアスの軽減に重点を置いている。
トレーニングデータからバイアスや偏見を反映したサンプルの発見という,新たな研究課題について検討する。
サンプルバイアスの測定と対策のための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:21:10Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Adapting Fairness Interventions to Missing Values [4.820576346277399]
実世界のデータにおける値の欠落は、アルゴリズムの公正性に顕著でユニークな課題をもたらす。
最初のデータがインプットされ、次に、そのインプットされたデータが分類に使用されるような、欠落した値を扱うための標準的な手順は、識別を悪化させる。
我々は,値の欠落を伴う公平な分類のためのスケーラブルで適応的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-30T21:50:48Z) - Provable Detection of Propagating Sampling Bias in Prediction Models [1.7709344190822935]
本稿では,データバイアスの特定の形式である差分サンプリングバイアスが,データステージから予測ステージにどのように伝播するかを理論的に分析する。
妥当な仮定の下では、モデル予測におけるバイアスの量が、データの差分サンプリングバイアスの量の関数としてどのように変化するかを定量化する。
仮定が緩和された場合でも理論的な結果が実際に成り立つことを実証する。
論文 参考訳(メタデータ) (2023-02-13T23:39:35Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Full Law Identification In Graphical Models Of Missing Data:
Completeness Results [13.299431908881425]
この研究分野における最初の完全性結果を提供する。
次に、欠落したデータと未測定のコンファウンディングの両方の存在によって生じる可能性のある問題に対処する。
論文 参考訳(メタデータ) (2020-04-10T01:31:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。