論文の概要: Potential sources of dataset bias complicate investigation of
underdiagnosis by machine learning algorithms
- arxiv url: http://arxiv.org/abs/2201.07856v2
- Date: Thu, 6 Jul 2023 06:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 18:48:34.444278
- Title: Potential sources of dataset bias complicate investigation of
underdiagnosis by machine learning algorithms
- Title(参考訳): データセットバイアスの潜在的発生源 : 機械学習アルゴリズムによる診断不足の検討
- Authors: M\'elanie Bernhardt, Charles Jones, Ben Glocker
- Abstract要約: Seyed-Kalantariらは、3つの胸部X線データセットで訓練されたモデルが偽陽性率の差をもたらすことを発見した。
この研究は、これらのモデルが体系的な下垂体手術を展示し、潜在的に増幅していると結論付けている。
- 参考スコア(独自算出の注目度): 20.50071537200745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing number of reports raise concerns about the risk that machine
learning algorithms could amplify health disparities due to biases embedded in
the training data. Seyyed-Kalantari et al. find that models trained on three
chest X-ray datasets yield disparities in false-positive rates (FPR) across
subgroups on the 'no-finding' label (indicating the absence of disease). The
models consistently yield higher FPR on subgroups known to be historically
underserved, and the study concludes that the models exhibit and potentially
even amplify systematic underdiagnosis. We argue that the experimental setup in
the study is insufficient to study algorithmic underdiagnosis. In the absence
of specific knowledge (or assumptions) about the extent and nature of the
dataset bias, it is difficult to investigate model bias. Importantly, their use
of test data exhibiting the same bias as the training data (due to random
splitting) severely complicates the interpretation of the reported disparities.
- Abstract(参考訳): 機械学習アルゴリズムがトレーニングデータに埋め込まれたバイアスによって、健康格差を増幅するリスクを懸念する報告が増えている。
seyyed-kalantariらは、3つの胸部x線データセットで訓練されたモデルが'no-finding'ラベルのサブグループ間で偽陽性率(fpr)の差をもたらすことを発見した。
これらのモデルは、歴史的に保存されていないことが知られているサブグループにおいて、常に高いFPRをもたらす。
本研究における実験装置は,アルゴリズム下診断の研究には不十分である。
データセットバイアスの程度と性質に関する特定の知識(または仮定)がないため、モデルバイアスを調査することは困難である。
重要なことに、トレーニングデータ(ランダム分割による)と同じバイアスを示すテストデータの使用は、報告された格差の解釈を著しく複雑にする。
関連論文リスト
- Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles [2.867517731896504]
我々は,計算効率のよい推定・計算アルゴリズムを開発した。
本モデルを用いて,ノースカロライナの170,000人の学生を対象に,鉛暴露レベルとエンドツーエンドテストスコアの関係を分析した。
論文 参考訳(メタデータ) (2024-06-05T17:11:59Z) - Discovery of the Hidden World with Large Language Models [100.38157787218044]
COAT: Causal representatiOn AssistanTについて紹介する。
COATは、非構造化データから潜在的な因果因子を抽出する因子プロジェクタとしてLLMを組み込んでいる。
LLMはデータ値の収集に使用される追加情報を提供するよう指示することもできる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - (Predictable) Performance Bias in Unsupervised Anomaly Detection [3.826262429926079]
教師なし異常検出(UAD)モデルは、疾患検出の重要な第1ステップを支援することを約束する。
本研究は, ある集団群に対して, UADモデルの異なる性能を定量的に評価した。
論文 参考訳(メタデータ) (2023-09-25T14:57:43Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - The pitfalls of using open data to develop deep learning solutions for
COVID-19 detection in chest X-rays [64.02097860085202]
深層学習モデルは、胸部X線から新型コロナウイルスを識別するために開発された。
オープンソースデータのトレーニングやテストでは,結果は異例です。
データ分析とモデル評価は、人気のあるオープンソースデータセットであるCOVIDxが実際の臨床問題を代表していないことを示している。
論文 参考訳(メタデータ) (2021-09-14T10:59:11Z) - On the diminishing return of labeling clinical reports [2.1431637042179683]
医療用NLPモデルを少量のラベル付きデータで取得できることを示す。
胸部X線X線画像診断データのうち, 胸部X線画像診断におけるトレーニングデータサイズの影響を定量的に検討した。
論文 参考訳(メタデータ) (2020-10-27T19:51:04Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Detect and Correct Bias in Multi-Site Neuroimaging Datasets [2.750124853532831]
神経画像のバイアスを調べるため、17の研究で脳の35,320個の磁気共鳴画像を合成した。
我々は、しばしば観察研究における主要な欠点と見なされる共起バイアスについて、より詳しく検討する。
我々は最近導入されたComBatアルゴリズムを拡張し、画像特徴間のグローバルな変動を制御する。
論文 参考訳(メタデータ) (2020-02-12T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。