論文の概要: Data Valuation for Medical Imaging Using Shapley Value: Application on A
Large-scale Chest X-ray Dataset
- arxiv url: http://arxiv.org/abs/2010.08006v1
- Date: Thu, 15 Oct 2020 20:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:42:56.676931
- Title: Data Valuation for Medical Imaging Using Shapley Value: Application on A
Large-scale Chest X-ray Dataset
- Title(参考訳): シェープ値を用いた医用画像データ評価:大規模胸部X線データセットへの応用
- Authors: Siyi Tang, Amirata Ghorbani, Rikiya Yamashita, Sameer Rehman, Jared A.
Dunnmon, James Zou, Daniel L. Rubin
- Abstract要約: トレーニングデータの価値を,肺炎検出アルゴリズムの性能に定量化するために,Shapleyを用いた。
その結果,Shapley値の高いトレーニングデータを削除することで,肺炎検出性能が低下することが判明した。
以上の結果より,Shapley値が低値であるのに対して,Shapley値が低値であるのに対し,Shapley値が高値であることは肺炎検出に有用であることを示す。
- 参考スコア(独自算出の注目度): 20.41400308138624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reliability of machine learning models can be compromised when trained on
low quality data. Many large-scale medical imaging datasets contain low quality
labels extracted from sources such as medical reports. Moreover, images within
a dataset may have heterogeneous quality due to artifacts and biases arising
from equipment or measurement errors. Therefore, algorithms that can
automatically identify low quality data are highly desired. In this study, we
used data Shapley, a data valuation metric, to quantify the value of training
data to the performance of a pneumonia detection algorithm in a large chest
X-ray dataset. We characterized the effectiveness of data Shapley in
identifying low quality versus valuable data for pneumonia detection. We found
that removing training data with high Shapley values decreased the pneumonia
detection performance, whereas removing data with low Shapley values improved
the model performance. Furthermore, there were more mislabeled examples in low
Shapley value data and more true pneumonia cases in high Shapley value data.
Our results suggest that low Shapley value indicates mislabeled or poor quality
images, whereas high Shapley value indicates data that are valuable for
pneumonia detection. Our method can serve as a framework for using data Shapley
to denoise large-scale medical imaging datasets.
- Abstract(参考訳): 機械学習モデルの信頼性は、低品質データでトレーニングすると損なわれる可能性がある。
多くの大規模医療画像データセットは、医療報告などの情報源から抽出された低品質なラベルを含んでいる。
さらに、データセット内の画像は、機器や測定エラーに起因するアーティファクトやバイアスによる異質な品質を持つ可能性がある。
したがって、低品質データを自動的に識別するアルゴリズムが要求される。
本研究では,大きな胸部x線データ集合における肺炎検出アルゴリズムの性能に対するトレーニングデータの価値を定量化するために,データ評価指標であるdata shapleyを用いた。
肺炎検出のための低品質データと有用データとの識別におけるデータシェープリーの有用性について検討した。
その結果,shapley値の高いトレーニングデータを削除すると肺炎検出性能が低下し,shapley値の低いデータを削除するとモデル性能が向上した。
さらに,Shapley値の低値データと,Shapley値の高値データにおける真性肺炎の誤記例も多かった。
以上の結果より,Shapley値が低値であるのに対し,Shapley値が高値であることは肺炎検出に有用であることを示している。
本手法は,大規模医用画像データセットを識別するためのデータ共有フレームワークとして機能する。
関連論文リスト
- Lung-DETR: Deformable Detection Transformer for Sparse Lung Nodule Anomaly Detection [0.0]
CTスキャン画像の正確な肺結節検出は現実の環境では困難である。
カスタムデータ前処理とデフォルマブル検出変換器(Deformable-DETR)を利用した新しいソリューションを提案する。
7.5mmの最大強度投影(MIP)を用いて、隣接する肺スライスを単一の画像に組み合わせ、スライス数を減らし、間隔を小さくする。
我々のモデルは、94.2%のF1スコア(95.2%のリコール、93.3%の精度)でLUNA16データセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2024-09-08T19:24:38Z) - Towards Robust Plant Disease Diagnosis with Hard-sample Re-mining
Strategy [6.844857856353672]
ハードサンプルリマイニング(HSReM)という,シンプルだが効果的なトレーニング戦略を提案する。
HSReMは、健康なデータの診断性能を高め、同時に疾患データの性能を向上させるように設計されている。
実験の結果,HSReMトレーニング戦略は大規模未確認データに対する診断性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-09-05T02:26:42Z) - RadTex: Learning Efficient Radiograph Representations from Text Reports [7.090896766922791]
我々は,放射線学報告を利用して,限られたラベル付きデータを用いた医用画像分類性能を向上させるための,データ効率のよい学習フレームワークを構築した。
本モデルは,ラベル付きトレーニングデータに制限がある場合,ImageNetによる事前学習よりも高い分類性能を実現する。
論文 参考訳(メタデータ) (2022-08-05T15:06:26Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - The pitfalls of using open data to develop deep learning solutions for
COVID-19 detection in chest X-rays [64.02097860085202]
深層学習モデルは、胸部X線から新型コロナウイルスを識別するために開発された。
オープンソースデータのトレーニングやテストでは,結果は異例です。
データ分析とモデル評価は、人気のあるオープンソースデータセットであるCOVIDxが実際の臨床問題を代表していないことを示している。
論文 参考訳(メタデータ) (2021-09-14T10:59:11Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z) - Data Consistent CT Reconstruction from Insufficient Data with Learned
Prior Images [70.13735569016752]
偽陰性病変と偽陽性病変を呈示し,CT画像再構成における深層学習の堅牢性について検討した。
本稿では,圧縮センシングと深層学習の利点を組み合わせた画像品質向上のためのデータ一貫性再構築手法を提案する。
提案手法の有効性は,円錐ビームCTにおいて,トランキャットデータ,リミテッドアングルデータ,スパースビューデータで示される。
論文 参考訳(メタデータ) (2020-05-20T13:30:49Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - Detection of Coronavirus (COVID-19) Associated Pneumonia based on
Generative Adversarial Networks and a Fine-Tuned Deep Transfer Learning Model
using Chest X-ray Dataset [4.664495510551646]
本稿では, 限られたデータセットに対して, 微調整深層移動学習を施したGANを用いた肺炎胸部X線検出法を提案する。
この研究で使用されるデータセットは、正常と肺炎の2つのカテゴリを持つ5863のX線画像で構成されている。
論文 参考訳(メタデータ) (2020-04-02T08:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。