論文の概要: Robustness Stress Testing in Medical Image Classification
- arxiv url: http://arxiv.org/abs/2308.06889v2
- Date: Fri, 15 Sep 2023 08:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 17:45:24.849542
- Title: Robustness Stress Testing in Medical Image Classification
- Title(参考訳): 医用画像分類におけるロバストネスストレステスト
- Authors: Mobarakol Islam and Zeju Li and Ben Glocker
- Abstract要約: 我々はストレステストを用いて、疾患検出モデルにおけるモデルロバスト性およびサブグループパフォーマンスの相違を評価する。
胸部X線画像と皮膚病変画像に対する疾患検出モデルのロバスト性の測定にストレステストを適用した。
我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。
- 参考スコア(独自算出の注目度): 26.094688963784254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have shown impressive performance for image-based
disease detection. Performance is commonly evaluated through clinical
validation on independent test sets to demonstrate clinically acceptable
accuracy. Reporting good performance metrics on test sets, however, is not
always a sufficient indication of the generalizability and robustness of an
algorithm. In particular, when the test data is drawn from the same
distribution as the training data, the iid test set performance can be an
unreliable estimate of the accuracy on new data. In this paper, we employ
stress testing to assess model robustness and subgroup performance disparities
in disease detection models. We design progressive stress testing using five
different bidirectional and unidirectional image perturbations with six
different severity levels. As a use case, we apply stress tests to measure the
robustness of disease detection models for chest X-ray and skin lesion images,
and demonstrate the importance of studying class and domain-specific model
behaviour. Our experiments indicate that some models may yield more robust and
equitable performance than others. We also find that pretraining
characteristics play an important role in downstream robustness. We conclude
that progressive stress testing is a viable and important tool and should
become standard practice in the clinical validation of image-based disease
detection models.
- Abstract(参考訳): ディープニューラルネットワークは、画像に基づく疾患検出で素晴らしいパフォーマンスを示している。
臨床的に許容できる精度を示すために、独立したテストセットに対する臨床検証を通じて、パフォーマンスを一般的に評価する。
しかし、テストセットで優れたパフォーマンスメトリクスを報告することは、アルゴリズムの一般化可能性と堅牢性を示すのに十分ではない。
特に、試験データがトレーニングデータと同じ分布から引き出される場合、iidテストセットの性能は、新規データにおける精度の信頼性の低下を推定することができる。
本稿では,疾患検出モデルにおけるモデルロバスト性とサブグループ性能の差を評価するためにストレステストを行う。
我々は6つの重度レベルを持つ5つの異なる双方向および一方向の画像摂動を用いた進行応力試験を設計する。
症例として,胸部X線画像と皮膚病変画像に対する疾患検出モデルの堅牢性の測定にストレステストを適用し,クラスおよびドメイン固有のモデル行動を研究することの重要性を示す。
我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。
また、下流のロバストネスにおいて、事前学習特性が重要な役割を担っていることも判明した。
プログレッシブストレステストは有用かつ重要なツールであり、画像に基づく疾患検出モデルの臨床的検証の標準となるべきであると結論づけた。
関連論文リスト
- Robustness Testing of Black-Box Models Against CT Degradation Through Test-Time Augmentation [1.7788343872869767]
医用画像のセグメンテーションと物体検出のためのディープラーニングモデルは、臨床製品としてますます利用されつつある。
トレーニングデータの詳細はめったに提供されないため、トレーニングディストリビューションとケースが異なる場合、モデルは予期せず失敗する可能性がある。
画像品質変化に対するこれらのモデルのロバスト性をテストする方法を提案する。
論文 参考訳(メタデータ) (2024-06-27T22:17:49Z) - Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles [4.249986624493547]
深層学習は高い予測精度と不確実性推定を実現することが示されている。
テスト時の入力画像のゆがみは、パフォーマンスを著しく低下させる可能性がある。
LaDiNEは,入力画像から情報および不変潜伏変数を推定できる,新規で堅牢な確率的手法である。
論文 参考訳(メタデータ) (2023-10-24T15:53:07Z) - AI in the Loop -- Functionalizing Fold Performance Disagreement to
Monitor Automated Medical Image Segmentation Pipelines [0.0]
臨床的実践に機械学習を安全に実装するためには、パフォーマンス予測が不十分なことを自動でフラグする手法が不可欠である。
本稿では、異なるデータセットの折りたたみ部で訓練されたサブモデルを用いて、容易に適用可能な手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T21:35:23Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Failure Detection in Medical Image Classification: A Reality Check and
Benchmarking Testbed [23.25084022554028]
自動画像分類における故障検出は、臨床展開にとって重要な安全策である。
その最重要さにもかかわらず、テストタイムの失敗を検出する最先端の信頼度評価手法の能力に関する証拠は不十分である。
本稿では,ドメイン内誤分類検出手法の性能を実証する現実チェックを提案する。
論文 参考訳(メタデータ) (2022-05-27T16:50:48Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Confidence-based Out-of-Distribution Detection: A Comparative Study and
Analysis [17.398553230843717]
我々は、信頼度に基づくOOD検出のための様々な最先端手法の能力を評価する。
まず,コンピュータビジョンベンチマークを用いて複数のOOD検出手法を再現・比較する。
次に,胸部X線を用いた疾患分類の課題に対して,その能力を評価する。
論文 参考訳(メタデータ) (2021-07-06T12:10:09Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。