論文の概要: Confound-leakage: Confound Removal in Machine Learning Leads to Leakage
- arxiv url: http://arxiv.org/abs/2210.09232v1
- Date: Mon, 17 Oct 2022 16:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:05:02.320839
- Title: Confound-leakage: Confound Removal in Machine Learning Leads to Leakage
- Title(参考訳): Confound-leakage: 漏洩による機械学習リードのコンファウンド除去
- Authors: Sami Hamdan and Bradley C. Love and Georg G. von Polier and Susanne
Weis and Holger Schwender and Simon B. Eickhoff and Kaustubh R. Patil
- Abstract要約: 機械学習モデルでは,この一般的な除去バイアスに対するアプローチが示され,誤った結果がもたらされる。
具体的には、この共通デコンウンディングアプローチは、ヌル効果や適度な効果がほぼ完全な予測に増幅されるような情報を漏らすことができる。
注意欠陥多動性障害 (ADHD) の発症予測のために, 精度を過大評価した臨床データセットを解析した。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) approaches to data analysis are now widely adopted in
many fields including epidemiology and medicine. To apply these approaches,
confounds must first be removed as is commonly done by featurewise removal of
their variance by linear regression before applying ML. Here, we show this
common approach to confound removal biases ML models, leading to misleading
results. Specifically, this common deconfounding approach can leak information
such that what are null or moderate effects become amplified to near-perfect
prediction when nonlinear ML approaches are subsequently applied. We identify
and evaluate possible mechanisms for such confound-leakage and provide
practical guidance to mitigate its negative impact. We demonstrate the
real-world importance of confound-leakage by analyzing a clinical dataset where
accuracy is overestimated for predicting attention deficit hyperactivity
disorder (ADHD) with depression as a confound. Our results have wide-reaching
implications for implementation and deployment of ML workflows and beg caution
against na\"ive use of standard confound removal approaches.
- Abstract(参考訳): データ分析への機械学習(ML)アプローチは、疫学や医学など多くの分野で広く採用されている。
これらのアプローチを適用するには、まず、MLを適用する前に線形回帰によってそれらの分散を特徴的に取り除かなければならない。
ここでは、この共通手法を用いて、MLモデルから除去バイアスを導出し、誤った結果を導出する。
具体的には、この共通デコンウンディングアプローチは、後に非線形MLアプローチを適用すると、ヌル効果や適度効果がほぼ完璧な予測に増幅されるような情報を漏らすことができる。
我々は,このような共起現象のメカニズムを特定し,評価し,その悪影響を緩和するための実践的指導を行う。
抑うつを伴う注意欠陥多動性障害(adhd)の予測に正確性が過大評価される臨床データセットを分析し,confound-leakageの重要性を実証した。
この結果から,MLワークフローの実装とデプロイ,および標準的なコンファウンド除去アプローチの "na\" 使用に対する注意が示唆された。
関連論文リスト
- Mechanism learning: Reverse causal inference in the presence of multiple unknown confounding through front-door causal bootstrapping [0.8901073744693314]
機械学習(ML)予測モデルの最大の制限は、変数間の因果関係ではなく、関連性を取り戻すことである。
本稿では,前向きの因果ブートストラップを用いて観測データを分解する機構学習を提案する。
提案手法は,完全合成,半合成,実世界のデータセットを用いて,信頼性,不偏性,因果的ML予測器を検出できることを実証する。
論文 参考訳(メタデータ) (2024-10-26T03:34:55Z) - Measuring Variable Importance in Individual Treatment Effect Estimation with High Dimensional Data [35.104681814241104]
因果機械学習(ML)は、個々の治療効果を推定するための強力なツールを提供する。
ML手法は、医療応用にとって重要な解釈可能性の重要な課題に直面している。
統計的に厳密な変数重要度評価のための条件置換重要度(CPI)法に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-23T11:44:07Z) - DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、マシンラーニングパイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
DispaRiskは、差別のリスクの高いデータセットを特定し、MLパイプライン内のバイアスが発生しやすいモデルファミリーを検出し、これらのバイアスリスクの説明可能性を高める。
この研究は、早期バイアス検出と緩和のための堅牢なツールを提供することにより、より公平なMLシステムの開発に寄与する。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - Mixed-Integer Projections for Automated Data Correction of EMRs Improve
Predictions of Sepsis among Hospitalized Patients [7.639610349097473]
本稿では,領域制約として臨床専門知識をシームレスに統合する革新的プロジェクションに基づく手法を提案する。
我々は、患者データの健全な範囲を規定する制約から補正されたデータの距離を測定する。
AUROCは0.865で、精度は0.922で、従来のMLモデルを上回る。
論文 参考訳(メタデータ) (2023-08-21T15:14:49Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。