論文の概要: Sample Selection Bias in Machine Learning for Healthcare
- arxiv url: http://arxiv.org/abs/2405.07841v1
- Date: Mon, 13 May 2024 15:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:06:14.526469
- Title: Sample Selection Bias in Machine Learning for Healthcare
- Title(参考訳): 医療用機械学習におけるサンプル選択バイアス
- Authors: Vinod Kumar Chauhan, Lei Clifton, Achille Salaün, Huiqi Yvonne Lu, Kim Branson, Patrick Schwab, Gaurav Nigam, David A. Clifton,
- Abstract要約: サンプル選択バイアス(英: sample selection bias, SSB)とは、研究対象の人口が減少し、偏りがあり潜在的に有害な決定につながることを指す。
SSBは文献でよく知られているが、医療のための機械学習についてはほとんど研究されていない。
偏り補正ではなく,対象集団の同定に基づいて,SSBに対処するための新たな研究方向を提案する。
- 参考スコア(独自算出の注目度): 17.549969100454803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While machine learning algorithms hold promise for personalised medicine, their clinical adoption remains limited. One critical factor contributing to this restraint is sample selection bias (SSB) which refers to the study population being less representative of the target population, leading to biased and potentially harmful decisions. Despite being well-known in the literature, SSB remains scarcely studied in machine learning for healthcare. Moreover, the existing techniques try to correct the bias by balancing distributions between the study and the target populations, which may result in a loss of predictive performance. To address these problems, our study illustrates the potential risks associated with SSB by examining SSB's impact on the performance of machine learning algorithms. Most importantly, we propose a new research direction for addressing SSB, based on the target population identification rather than the bias correction. Specifically, we propose two independent networks (T-Net) and a multitasking network (MT-Net) for addressing SSB, where one network/task identifies the target subpopulation which is representative of the study population and the second makes predictions for the identified subpopulation. Our empirical results with synthetic and semi-synthetic datasets highlight that SSB can lead to a large drop in the performance of an algorithm for the target population as compared with the study population, as well as a substantial difference in the performance for the target subpopulations that are representative of the selected and the non-selected patients from the study population. Furthermore, our proposed techniques demonstrate robustness across various settings, including different dataset sizes, event rates, and selection rates, outperforming the existing bias correction techniques.
- Abstract(参考訳): 機械学習アルゴリズムはパーソナライズド医療を約束するが、臨床応用は限られている。
この抑制に寄与する重要な要因の1つは、サンプル選択バイアス(SSB)であり、これは研究の人口が対象の人口より少ないことを示し、バイアスがあり、潜在的に有害な決定をもたらすことを意味する。
SSBは文献でよく知られているが、医療のための機械学習についてはほとんど研究されていない。
さらに,従来の手法では,対象個体群と対象個体群の分布のバランスをとることでバイアスの補正が試みられ,予測性能が低下する可能性がある。
これらの問題に対処するために,本研究では,SSBが機械学習アルゴリズムの性能に与える影響を調べることによって,SSBに関連する潜在的なリスクについて説明する。
より重要なことは、偏り補正ではなく、対象集団の同定に基づいて、SSBに対処するための新たな研究方向を提案することである。
具体的には、SSBに対処するための2つの独立したネットワーク(T-Net)とマルチタスクネットワーク(MT-Net)を提案する。
合成および半合成データセットを用いた実験結果から,SSBは対象個体群と比較して,対象個体群に対するアルゴリズムの性能が大幅に低下すること,および,対象個体群の代表である対象個体群と非選択個体群に対する性能に有意な差があることが示唆された。
さらに,提案手法は,データセットサイズ,イベントレート,選択率など,さまざまな設定において堅牢性を示し,既存のバイアス補正手法よりも優れていた。
関連論文リスト
- Unsupervised Search for Ethnic Minorities' Medical Segmentation Training Set [5.880582406602758]
本稿では、医療画像におけるデータセットバイアスの重大な問題について、特に人種差に着目して検討する。
分析の結果, 医学的セグメンテーションデータセットは, 主に収集部位の人口構成に影響され, かなり偏りがあることが判明した。
本稿では,過小評価された人種グループに焦点をあてて,これらのバイアスを減らすことを目的とした,新たなトレーニングセット検索戦略を提案する。
論文 参考訳(メタデータ) (2025-01-05T05:04:47Z) - Metric-DST: Mitigating Selection Bias Through Diversity-Guided Semi-Supervised Metric Learning [0.0]
自己学習のような半教師付き学習戦略は、ラベルなしデータをモデルトレーニングに組み込むことで選択バイアスを軽減することができる。
本稿では,距離学習とその暗黙の埋め込み空間を活用し,信頼度に基づくバイアスに対処する多様性誘導型自己学習戦略であるMetric-DSTを提案する。
論文 参考訳(メタデータ) (2024-11-27T15:29:42Z) - Debias-CLR: A Contrastive Learning Based Debiasing Method for Algorithmic Fairness in Healthcare Applications [0.17624347338410748]
異なる治療と戦うために,暗黙の処理内脱バイアス法を提案した。
心不全患者の臨床記録と診断基準,治療報告,生理的活力について検討した。
Debias-CLRは、性別や民族を嫌う場合に、SC-WEAT(Single-Category Word Embedding Association Test)の効果を減少させることができた。
論文 参考訳(メタデータ) (2024-11-15T19:32:01Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Targeted Optimal Treatment Regime Learning Using Summary Statistics [12.767669486030352]
我々は、ソースとターゲットの集団が不均一である可能性のあるITR推定問題を考える。
我々は、利用可能な要約統計を利用して、所定の対象人口に対してITRを調整する重み付けフレームワークを開発する。
具体的には,対象集団の値関数の補正された逆確率重み付き推定器を提案し,最適ITRを推定する。
論文 参考訳(メタデータ) (2022-01-17T06:11:31Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Targeting Underrepresented Populations in Precision Medicine: A
Federated Transfer Learning Approach [7.467496975496821]
多様な人口と複数の医療機関の異種データを統合した双方向データ統合戦略を提案する。
提案手法は, 人口の予測精度と予測精度を向上し, 人口間のモデル性能のギャップを小さくすることを示す。
論文 参考訳(メタデータ) (2021-08-27T04:04:34Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。