論文の概要: Imputation Strategies Under Clinical Presence: Impact on Algorithmic Fairness
- arxiv url: http://arxiv.org/abs/2208.06648v4
- Date: Mon, 17 Mar 2025 23:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:13:15.487504
- Title: Imputation Strategies Under Clinical Presence: Impact on Algorithmic Fairness
- Title(参考訳): 臨床的存在下でのインキュベーション戦略:アルゴリズム的公正性への影響
- Authors: Vincent Jeanselme, Maria De-Arteaga, Zhe Zhang, Jessica Barrett, Brian Tom,
- Abstract要約: 我々は、機械学習がデータおよびデータから欠落するものにおけるバイアスを補強するリスクを論じる。
医療の欠如に対処する方法は、アルゴリズムの公正性に有害な影響を与える可能性がある。
提案手法は,命令の選択を実証的に導くためのフレームワークと,それに伴う報告フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.958956425857878
- License:
- Abstract: Machine learning risks reinforcing biases present in data and, as we argue in this work, in what is absent from data. In healthcare, societal and decision biases shape patterns in missing data, yet the algorithmic fairness implications of group-specific missingness are poorly understood. The way we address missingness in healthcare can have detrimental impacts on downstream algorithmic fairness. Our work questions current recommendations and practices aimed at handling missing data with a focus on their effect on algorithmic fairness, and offers a path forward. Specifically, we consider the theoretical underpinnings of existing recommendations as well as their empirical predictive performance and corresponding algorithmic fairness measured through subgroup performances. Our results show that current practices for handling missingness lack principled foundations, are disconnected from the realities of missingness mechanisms in healthcare, and can be counterproductive. For example, we show that favouring group-specific imputation strategy can be misguided and exacerbate prediction disparities. We then build on our findings to propose a framework for empirically guiding imputation choices, and an accompanying reporting framework. Our work constitutes an important contribution to recent efforts by regulators and practitioners to grapple with the realities of real-world data, and to foster the responsible and transparent deployment of machine learning systems. We demonstrate the practical utility of the proposed framework through experimentation on widely used datasets, where we show how the proposed framework can guide the selection of imputation strategies, allowing us to choose among strategies that yield equal overall predictive performance but present different algorithmic fairness properties.
- Abstract(参考訳): 機械学習は、データに存在するバイアスの強化と、この研究で論じているように、データから欠落していることのリスクを負う。
医療において、社会的・決定的バイアスは、欠落したデータのパターンを形成するが、アルゴリズム的公正さは、グループ固有の欠落にほとんど影響しない。
医療の欠如に対処する方法は、下流のアルゴリズムフェアネスに有害な影響を与える可能性がある。
私たちの仕事は、アルゴリズムの公正性に焦点をあてて、欠落したデータを扱うための現在の推奨事項とプラクティスに疑問を投げかけ、前進の道筋を提供する。
具体的には、既存の勧告の理論的基盤と、その経験的予測性能と、サブグループのパフォーマンスを通して測定されたアルゴリズム的公正性について考察する。
以上の結果から, 欠失対策には根本的基盤が欠如しており, 医療における欠失メカニズムの現実から切り離され, 反生産的になり得ることが示唆された。
例えば、グループ固有の計算戦略を好むことは、予測格差を誤認し、さらに悪化させる可能性があることを示す。
次に,実験的な計算選択の導出のためのフレームワークと,それに伴う報告フレームワークを提案する。
我々の研究は、規制当局や実践者が現実のデータの現実に対処し、機械学習システムの責任と透過的な展開を促進するために、近年の取り組みに重要な貢献をしている。
提案手法は,提案手法が提案手法の選択をいかに導くかを示すとともに,予測性能が等しく,アルゴリズムの公平性も異なる戦略を選択することができることを示す。
関連論文リスト
- DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、マシンラーニングパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
DispaRiskは、差別のリスクの高いデータセットを特定し、MLパイプライン内のバイアスが発生しやすいモデルファミリーを検出し、これらのバイアスリスクの説明可能性を高める。
この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - The Impact of Differential Feature Under-reporting on Algorithmic Fairness [86.275300739926]
解析的に抽出可能な差分特徴のアンダーレポーティングモデルを提案する。
そして、この種のデータバイアスがアルゴリズムの公正性に与える影響を特徴づける。
我々の結果は、実世界のデータ設定では、アンダーレポートが典型的に格差を増大させることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:16:22Z) - On The Impact of Machine Learning Randomness on Group Fairness [11.747264308336012]
ニューラルネットワークのトレーニングにおけるランダム性の異なる源の群フェアネスへの影響について検討する。
グループフェアネス尺度のばらつきは、非表現群における学習過程の高ボラティリティに根ざしていることを示す。
一つのエポックに対してデータ順序を変更するだけで、モデル全体の性能に高い効率と無視可能な影響でグループレベルの精度を制御できることを示す。
論文 参考訳(メタデータ) (2023-07-09T09:36:31Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Fair Classification with Group-Dependent Label Noise [6.324366770332667]
本研究は,学習ラベルがランダムノイズで破損した環境で,公平な分類器を訓練する方法を検討する。
異種・集団依存の誤差率を考慮せずに、人口格差尺度にパリティ制約を鼻で課すことにより、その結果の精度と公平性を低下させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T22:35:01Z) - Targeted VAE: Variational and Targeted Learning for Causal Inference [39.351088248776435]
観測データによる因果推論は、幅広いタスクで非常に有用である。
観察データを用いた因果推論の実施には,2つの重要な課題がある。
構造化推論とターゲット学習を組み合わせることで、これらの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-09-28T16:55:24Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z) - Learning Overlapping Representations for the Estimation of
Individualized Treatment Effects [97.42686600929211]
観測データから代替案の可能性を推定することは難しい問題である。
入力のドメイン不変表現を学習するアルゴリズムは、しばしば不適切であることを示す。
我々は,様々なベンチマークデータセットの最先端性を大幅に向上させる,ディープカーネル回帰アルゴリズムと後続正規化フレームワークを開発した。
論文 参考訳(メタデータ) (2020-01-14T12:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。