論文の概要: Problems and shortcuts in deep learning for screening mammography
- arxiv url: http://arxiv.org/abs/2303.16417v1
- Date: Wed, 29 Mar 2023 02:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:14:43.411305
- Title: Problems and shortcuts in deep learning for screening mammography
- Title(参考訳): マンモグラフィ検診における深層学習の問題点とショートカット
- Authors: Trevor Tsue, Brent Mombourquette, Ahmed Taha, Thomas Paul Matthews,
Yen Nhi Truong Vu, Jason Su
- Abstract要約: この研究は、ディープラーニングモデルの性能と一般化性に関する未解明の課題を明らかにする。
私たちは2008年から2017年にかけて取得された120,112の米国立試験(3,467のがん)の振り返りデータセットに基づいて、がんを分類するAIモデルを訓練した。
11,593人(がん102人,女性7,594人,女性57.1人,女性11.0人),英国1,880人(がん590人,女性1,745人,女性63.3人,女性7.2人)を対象に検診を行った。
- 参考スコア(独自算出の注目度): 2.9033848132822726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work reveals undiscovered challenges in the performance and
generalizability of deep learning models. We (1) identify spurious shortcuts
and evaluation issues that can inflate performance and (2) propose training and
analysis methods to address them.
We trained an AI model to classify cancer on a retrospective dataset of
120,112 US exams (3,467 cancers) acquired from 2008 to 2017 and 16,693 UK exams
(5,655 cancers) acquired from 2011 to 2015.
We evaluated on a screening mammography test set of 11,593 US exams (102
cancers; 7,594 women; age 57.1 \pm 11.0) and 1,880 UK exams (590 cancers; 1,745
women; age 63.3 \pm 7.2). A model trained on images of only view markers (no
breast) achieved a 0.691 AUC. The original model trained on both datasets
achieved a 0.945 AUC on the combined US+UK dataset but paradoxically only 0.838
and 0.892 on the US and UK datasets, respectively. Sampling cancers equally
from both datasets during training mitigated this shortcut. A similar AUC
paradox (0.903) occurred when evaluating diagnostic exams vs screening exams
(0.862 vs 0.861, respectively). Removing diagnostic exams during training
alleviated this bias. Finally, the model did not exhibit the AUC paradox over
scanner models but still exhibited a bias toward Selenia Dimension (SD) over
Hologic Selenia (HS) exams. Analysis showed that this AUC paradox occurred when
a dataset attribute had values with a higher cancer prevalence (dataset bias)
and the model consequently assigned a higher probability to these attribute
values (model bias). Stratification and balancing cancer prevalence can
mitigate shortcuts during evaluation.
Dataset and model bias can introduce shortcuts and the AUC paradox,
potentially pervasive issues within the healthcare AI space. Our methods can
verify and mitigate shortcuts while providing a clear understanding of
performance.
- Abstract(参考訳): この研究は、ディープラーニングモデルの性能と一般化性に関する未解明の課題を明らかにする。
1)パフォーマンスを膨らませる可能性のあるスプリアスショートカットと評価問題を特定し,(2)それらに対処するためのトレーニングと分析方法を提案する。
2008年から2017年に獲得した120,112の米国試験(3,467のがん)と2011年から2015年に獲得した16,693の英国試験(5,655のがん)のふりかえりデータセットに基づいて、がんを分類するaiモデルをトレーニングした。
11,593試験(がん102例、女性7,594例、年齢57.1 \pm 11.0例)と1,880試験(がん590例、女性1,745例、年齢63.3 \pm 7.2)のスクリーニングマンモグラフィテストセットを評価した。
乳房のない視標のみの画像で訓練されたモデルは0.691 aucを達成した。
両データセットでトレーニングされたオリジナルのモデルは、us+ukデータセットで0.945 aucを達成したが、アメリカとイギリスのデータセットではそれぞれ0.838と0.892に過ぎなかった。
トレーニング中の両方のデータセットからがんを等しくサンプリングすることは、このショートカットを緩和した。
同様のAUCパラドックス(0.903)は、診断試験とスクリーニング試験(0.862対0.861)の評価において発生した。
トレーニング中の診断試験の削除は、このバイアスを軽減した。
最終的に、このモデルはスキャナーモデルよりもAUCパラドックスを示しなかったが、Hological Selenia (HS)試験よりもSelenia Dimension (SD)に偏っている。
分析の結果、このaucパラドックスは、データセット属性ががんの有病率が高い値(データセットバイアス)を持ち、その結果、これらの属性値(モデルバイアス)に高い確率を割り当てた時に発生する。
がんの有病率は、評価中にショートカットを緩和することができる。
データセットとモデルバイアスは、ショートカットとAUCパラドックスを導入し、医療AI分野に広く浸透する可能性がある。
我々の手法は、性能を明確に理解しながら、ショートカットの検証と緩和が可能である。
関連論文リスト
- Clinical Melanoma Diagnosis with Artificial Intelligence: Insights from
a Prospective Multicenter Study [1.2397589403129072]
AIはメラノーマの検出を強化するのに役立つことが証明されている。
現存する研究は、サンプルサイズが低いこと、同質なデータセットが多すぎること、希少なメラノーマ亜型の欠如によって制限されている。
メラノーマの診断精度と皮膚科医の診断精度を比較検討し, 確立されたメラノーマ検出用オープンソースアルゴリズムである「All Data is Ext」(ADAE)を評価した。
論文 参考訳(メタデータ) (2024-01-25T14:03:54Z) - Performance of externally validated machine learning models based on
histopathology images for the diagnosis, classification, prognosis, or
treatment outcome prediction in female breast cancer: A systematic review [0.5792122879054292]
女性乳癌の診断、分類、予後、治療結果予測のための外部検証された機械学習モデル。
診断用MLモデル3例,分類用4例,予後用2例,予後用1例について検討した。
ほとんどの研究では畳み込みニューラルネットワークとロジスティック回帰アルゴリズムが使用されている。
論文 参考訳(メタデータ) (2023-12-09T18:27:56Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Robust Cross-vendor Mammographic Texture Models Using Augmentation-based
Domain Adaptation for Long-term Breast Cancer Risk [0.5284541478311979]
マンモグラフィーに基づくリスクモデルは、異なる集団やマンモグラフィー装置によって引き起こされるドメインシフトに対して頑健でなければならない。
我々は長期的リスク評価のための堅牢でクロスベンダなモデルを開発した。
論文 参考訳(メタデータ) (2022-12-27T10:37:02Z) - Building Brains: Subvolume Recombination for Data Augmentation in Large
Vessel Occlusion Detection [56.67577446132946]
この戦略をデータから学ぶためには、標準的なディープラーニングベースのモデルに対して、大規模なトレーニングデータセットが必要である。
そこで本研究では, 異なる患者から血管木セグメントを組換えることで, 人工的なトレーニングサンプルを生成する方法を提案する。
拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。
論文 参考訳(メタデータ) (2022-05-05T10:31:57Z) - Semi-supervised learning for generalizable intracranial hemorrhage
detection and segmentation [0.0]
本研究は頭蓋内出血の検出・分節化のための半教師付き学習モデルの開発と評価である。
最初の「教師」ディープラーニングモデルは、2010年から2017年にかけて米国のある機関から収集された457ピクセルの頭部CTスキャンに基づいて訓練された。
2つ目の"学生"モデルは、このピクセルラベル付きデータセットと擬似ラベル付きデータセットの組み合わせでトレーニングされた。
論文 参考訳(メタデータ) (2021-05-03T00:14:43Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Deep Learning Applied to Chest X-Rays: Exploiting and Preventing
Shortcuts [11.511323714777298]
本稿では,特定の属性を有する患者が興味を抱く可能性が極めて高い,突発性クラススキューの症例について検討する。
深層ネットは、診断の予測を学ぶ際に、性別(AUROC=0.96)や年齢(AUROC=0.90)を含む多くの患者属性を正確に識別できることを示す。
単純な転送学習アプローチは、ショートカットを防止し、優れたパフォーマンスを促進するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2020-09-21T18:52:43Z) - Automated Quantification of CT Patterns Associated with COVID-19 from
Chest CT [48.785596536318884]
提案法は,非造影胸部CTを入力として,病変,肺,葉を3次元に分割する。
この方法では、肺の重症度と葉の関与度を2つの組み合わせて測定し、COVID-19の異常度と高不透明度の存在度を定量化する。
このアルゴリズムの評価は、カナダ、ヨーロッパ、米国からの200人の参加者(感染者100人、健康管理100人)のCTで報告されている。
論文 参考訳(メタデータ) (2020-04-02T21:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。