論文の概要: Sample Selection Bias in Machine Learning for Healthcare
- arxiv url: http://arxiv.org/abs/2405.07841v2
- Date: Tue, 26 Nov 2024 21:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:06.988922
- Title: Sample Selection Bias in Machine Learning for Healthcare
- Title(参考訳): 医療用機械学習におけるサンプル選択バイアス
- Authors: Vinod Kumar Chauhan, Lei Clifton, Achille Salaün, Huiqi Yvonne Lu, Kim Branson, Patrick Schwab, Gaurav Nigam, David A. Clifton,
- Abstract要約: サンプル選択バイアス(SSB, sample selection bias)は, 対象個体群が対象個体群に比例しない特定の種類の偏見である。
既存の機械学習技術は、主に研究と対象個体群の分布のバランスをとることによってバイアスを補正しようとする。
偏り補正ではなく,対象集団の同定に基づいて,SSBに対処するための新たな研究方向を提案する。
- 参考スコア(独自算出の注目度): 17.549969100454803
- License:
- Abstract: While machine learning algorithms hold promise for personalised medicine, their clinical adoption remains limited, partly due to biases that can compromise the reliability of predictions. In this paper, we focus on sample selection bias (SSB), a specific type of bias where the study population is less representative of the target population, leading to biased and potentially harmful decisions. Despite being well-known in the literature, SSB remains scarcely studied in machine learning for healthcare. Moreover, the existing machine learning techniques try to correct the bias mostly by balancing distributions between the study and the target populations, which may result in a loss of predictive performance. To address these problems, our study illustrates the potential risks associated with SSB by examining SSB's impact on the performance of machine learning algorithms. Most importantly, we propose a new research direction for addressing SSB, based on the target population identification rather than the bias correction. Specifically, we propose two independent networks(T-Net) and a multitasking network (MT-Net) for addressing SSB, where one network/task identifies the target subpopulation which is representative of the study population and the second makes predictions for the identified subpopulation. Our empirical results with synthetic and semi-synthetic datasets highlight that SSB can lead to a large drop in the performance of an algorithm for the target population as compared with the study population, as well as a substantial difference in the performance for the target subpopulations that are representative of the selected and the non-selected patients from the study population. Furthermore, our proposed techniques demonstrate robustness across various settings, including different dataset sizes, event rates, and selection rates, outperforming the existing bias correction techniques.
- Abstract(参考訳): 機械学習アルゴリズムはパーソナライズドメディカルな医療を約束するが、その臨床応用は限定的であり、部分的には予測の信頼性を損なうバイアスがある。
本稿では,サンプル選択バイアス(SSB, sample selection bias)に着目した。
SSBは文献でよく知られているが、医療のための機械学習についてはほとんど研究されていない。
さらに、既存の機械学習技術は、主に研究と対象個体群の分布のバランスをとることでバイアスを補正しようとしており、予測性能が失われる可能性がある。
これらの問題に対処するために,本研究では,SSBが機械学習アルゴリズムの性能に与える影響を調べることによって,SSBに関連する潜在的なリスクについて説明する。
より重要なことは、偏り補正ではなく、対象集団の同定に基づいて、SSBに対処するための新たな研究方向を提案することである。
具体的には、SSBに対処するための2つの独立したネットワーク(T-Net)とマルチタスクネットワーク(MT-Net)を提案する。
合成および半合成データセットを用いた実験結果から,SSBは対象個体群と比較して,対象個体群に対するアルゴリズムの性能が大幅に低下すること,および,対象個体群の代表である対象個体群と非選択個体群に対する性能に有意な差があることが示唆された。
さらに,提案手法は,データセットサイズ,イベントレート,選択率など,さまざまな設定において堅牢性を示し,既存のバイアス補正手法よりも優れていた。
関連論文リスト
- Debias-CLR: A Contrastive Learning Based Debiasing Method for Algorithmic Fairness in Healthcare Applications [0.17624347338410748]
異なる治療と戦うために,暗黙の処理内脱バイアス法を提案した。
心不全患者の臨床記録と診断基準,治療報告,生理的活力について検討した。
Debias-CLRは、性別や民族を嫌う場合に、SC-WEAT(Single-Category Word Embedding Association Test)の効果を減少させることができた。
論文 参考訳(メタデータ) (2024-11-15T19:32:01Z) - Stable Heterogeneous Treatment Effect Estimation across Out-of-Distribution Populations [27.163528362979594]
不均一治療効果(HTE)の推定は、個人またはグループ間の治療効果の変化を理解するために不可欠である。
既存のHTE推定手法の多くは、処理単位と制御単位間の共著者の不均衡分布によって引き起こされる選択バイアスに対処することに焦点を当てている。
人口分布を連続的に変化させる現実世界のアプリケーションでは、分布外人口をまたいだ安定したHTE推定が緊急に必要である。
論文 参考訳(メタデータ) (2024-07-03T13:03:51Z) - Who Are We Missing? A Principled Approach to Characterizing the Underrepresented Population [5.568543786710628]
最適化に基づく最適化手法であるROOT(Rashomon Set of Optimal Trees)を導入する。
ROOTは、ターゲット平均処理効果推定値の分散を最小化して、ターゲットサブポピュレーション分布を最適化する。
我々の枠組みは、意思決定の精度を高め、多様な集団における将来の試行を通知するための体系的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-01-25T21:11:35Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Adaptive Identification of Populations with Treatment Benefit in
Clinical Trials: Machine Learning Challenges and Solutions [78.31410227443102]
確定的臨床試験において,特定の治療の恩恵を受ける患者サブポピュレーションを適応的に同定する問題について検討した。
サブポピュレーション構築のためのメタアルゴリズムであるAdaGGIとAdaGCPIを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:27:49Z) - Targeted Optimal Treatment Regime Learning Using Summary Statistics [12.767669486030352]
我々は、ソースとターゲットの集団が不均一である可能性のあるITR推定問題を考える。
我々は、利用可能な要約統計を利用して、所定の対象人口に対してITRを調整する重み付けフレームワークを開発する。
具体的には,対象集団の値関数の補正された逆確率重み付き推定器を提案し,最適ITRを推定する。
論文 参考訳(メタデータ) (2022-01-17T06:11:31Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Targeting Underrepresented Populations in Precision Medicine: A
Federated Transfer Learning Approach [7.467496975496821]
多様な人口と複数の医療機関の異種データを統合した双方向データ統合戦略を提案する。
提案手法は, 人口の予測精度と予測精度を向上し, 人口間のモデル性能のギャップを小さくすることを示す。
論文 参考訳(メタデータ) (2021-08-27T04:04:34Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。