Fugu-MT 論文翻訳(概要): Robustness Stress Testing in Medical Image Classification

論文の概要: Robustness Stress Testing in Medical Image Classification

arxiv url: http://arxiv.org/abs/2308.06889v2
Date: Fri, 15 Sep 2023 08:51:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 17:45:24.849542
Title: Robustness Stress Testing in Medical Image Classification
Title（参考訳）: 医用画像分類におけるロバストネスストレステスト
Authors: Mobarakol Islam and Zeju Li and Ben Glocker
Abstract要約: 我々はストレステストを用いて、疾患検出モデルにおけるモデルロバスト性およびサブグループパフォーマンスの相違を評価する。胸部X線画像と皮膚病変画像に対する疾患検出モデルのロバスト性の測定にストレステストを適用した。我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。
参考スコア（独自算出の注目度）: 26.094688963784254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks have shown impressive performance for image-based disease detection. Performance is commonly evaluated through clinical validation on independent test sets to demonstrate clinically acceptable accuracy. Reporting good performance metrics on test sets, however, is not always a sufficient indication of the generalizability and robustness of an algorithm. In particular, when the test data is drawn from the same distribution as the training data, the iid test set performance can be an unreliable estimate of the accuracy on new data. In this paper, we employ stress testing to assess model robustness and subgroup performance disparities in disease detection models. We design progressive stress testing using five different bidirectional and unidirectional image perturbations with six different severity levels. As a use case, we apply stress tests to measure the robustness of disease detection models for chest X-ray and skin lesion images, and demonstrate the importance of studying class and domain-specific model behaviour. Our experiments indicate that some models may yield more robust and equitable performance than others. We also find that pretraining characteristics play an important role in downstream robustness. We conclude that progressive stress testing is a viable and important tool and should become standard practice in the clinical validation of image-based disease detection models.
Abstract（参考訳）: ディープニューラルネットワークは、画像に基づく疾患検出で素晴らしいパフォーマンスを示している。臨床的に許容できる精度を示すために、独立したテストセットに対する臨床検証を通じて、パフォーマンスを一般的に評価する。しかし、テストセットで優れたパフォーマンスメトリクスを報告することは、アルゴリズムの一般化可能性と堅牢性を示すのに十分ではない。特に、試験データがトレーニングデータと同じ分布から引き出される場合、iidテストセットの性能は、新規データにおける精度の信頼性の低下を推定することができる。本稿では,疾患検出モデルにおけるモデルロバスト性とサブグループ性能の差を評価するためにストレステストを行う。我々は6つの重度レベルを持つ5つの異なる双方向および一方向の画像摂動を用いた進行応力試験を設計する。症例として,胸部X線画像と皮膚病変画像に対する疾患検出モデルの堅牢性の測定にストレステストを適用し,クラスおよびドメイン固有のモデル行動を研究することの重要性を示す。我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。また、下流のロバストネスにおいて、事前学習特性が重要な役割を担っていることも判明した。プログレッシブストレステストは有用かつ重要なツールであり、画像に基づく疾患検出モデルの臨床的検証の標準となるべきであると結論づけた。

関連論文リスト

GRASP-PsONet: Gradient-based Removal of Spurious Patterns for PsOriasis Severity Classification [0.0]
本稿では,突発的な相関を導入し,問題のあるトレーニングイメージを自動的にフラグするフレームワークを提案する。フラグ付き画像の8.2%は、保持されたテストセットでモデルAUC-ROCを5%(85%から90%)改善する。 2人の皮膚科医によって評価された訓練データのサブセットに適用した場合、この方法は、レイター間不一致の90%以上を識別する。
論文参考訳（メタデータ） (2025-06-27T03:42:09Z)
Trustworthy image-to-image translation: evaluating uncertainty calibration in unpaired training scenarios [0.0]
マンモグラフィスクリーニングは乳がんの検出に有効な方法であり、早期診断を容易にする。ディープニューラルネットワークはいくつかの研究で有効であることが示されているが、その傾向は一般化と誤診のリスクをかなり残している。汎用性を向上させるために、未ペア型ニューラルスタイル転送モデルに基づくデータ拡張スキームが提案されている。 3つのオープンアクセスマンモグラフィーデータセットと1つの非医療画像データセットから解析した画像パッチを用いて、それらの性能を評価する。
論文参考訳（メタデータ） (2025-01-29T11:09:50Z)
Robustness Testing of Black-Box Models Against CT Degradation Through Test-Time Augmentation [1.7788343872869767]
医用画像のセグメンテーションと物体検出のためのディープラーニングモデルは、臨床製品としてますます利用されつつある。トレーニングデータの詳細はめったに提供されないため、トレーニングディストリビューションとケースが異なる場合、モデルは予期せず失敗する可能性がある。画像品質変化に対するこれらのモデルのロバスト性をテストする方法を提案する。
論文参考訳（メタデータ） (2024-06-27T22:17:49Z)
Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles [4.249986624493547]
深層学習は高い予測精度と不確実性推定を実現することが示されている。テスト時の入力画像のゆがみは、パフォーマンスを著しく低下させる可能性がある。 LaDiNEは,入力画像から情報および不変潜伏変数を推定できる,新規で堅牢な確率的手法である。
論文参考訳（メタデータ） (2023-10-24T15:53:07Z)
AI in the Loop -- Functionalizing Fold Performance Disagreement to Monitor Automated Medical Image Segmentation Pipelines [0.0]
臨床的実践に機械学習を安全に実装するためには、パフォーマンス予測が不十分なことを自動でフラグする手法が不可欠である。本稿では、異なるデータセットの折りたたみ部で訓練されたサブモデルを用いて、容易に適用可能な手法を提案する。
論文参考訳（メタデータ） (2023-05-15T21:35:23Z)
Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文参考訳（メタデータ） (2023-03-27T17:59:33Z)
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-02-02T19:28:41Z)
Failure Detection in Medical Image Classification: A Reality Check and Benchmarking Testbed [23.25084022554028]
自動画像分類における故障検出は、臨床展開にとって重要な安全策である。その最重要さにもかかわらず、テストタイムの失敗を検出する最先端の信頼度評価手法の能力に関する証拠は不十分である。本稿では,ドメイン内誤分類検出手法の性能を実証する現実チェックを提案する。
論文参考訳（メタデータ） (2022-05-27T16:50:48Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Confidence-based Out-of-Distribution Detection: A Comparative Study and Analysis [17.398553230843717]
我々は、信頼度に基づくOOD検出のための様々な最先端手法の能力を評価する。まず,コンピュータビジョンベンチマークを用いて複数のOOD検出手法を再現・比較する。次に,胸部X線を用いた疾患分類の課題に対して,その能力を評価する。
論文参考訳（メタデータ） (2021-07-06T12:10:09Z)
Hemogram Data as a Tool for Decision-making in COVID-19 Management: Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文参考訳（メタデータ） (2020-05-10T01:45:03Z)
Self-Training with Improved Regularization for Sample-Efficient Chest X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文参考訳（メタデータ） (2020-05-03T02:36:00Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。