論文の概要: False Promises in Medical Imaging AI? Assessing Validity of Outperformance Claims
- arxiv url: http://arxiv.org/abs/2505.04720v1
- Date: Wed, 07 May 2025 18:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.639383
- Title: False Promises in Medical Imaging AI? Assessing Validity of Outperformance Claims
- Title(参考訳): 医療画像AIにおける偽の約束 : アウトパフォーマンス・クレームの妥当性を評価する
- Authors: Evangelia Christodoulou, Annika Reinke, Pascaline Andrè, Patrick Godau, Piotr Kalinowski, Rola Houhou, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofiène Boutaj, Sophie Loizillon, Maëlys Solal, Veronika Cheplygina, Charles Heitz, Michal Kozubek, Michela Antonelli, Nicola Rieke, Antoine Gilson, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Annette Kopp-Schneider, Gaël Varoquaux, Olivier Colliot, Lena Maier-Hein,
- Abstract要約: 医用画像論文の代表的コホートを解析し,新たに提案した手法が真に最先端であるか否かを考察した。
以上の結果から,新手法の導入時の性能の低下が報告されている。
さらに,分類論文の86%,分節論文の53%において,偽アウトパフォーマンスクレームの確率(>5%)が高かった。
- 参考スコア(独自算出の注目度): 8.947888057954343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance comparisons are fundamental in medical imaging Artificial Intelligence (AI) research, often driving claims of superiority based on relative improvements in common performance metrics. However, such claims frequently rely solely on empirical mean performance. In this paper, we investigate whether newly proposed methods genuinely outperform the state of the art by analyzing a representative cohort of medical imaging papers. We quantify the probability of false claims based on a Bayesian approach that leverages reported results alongside empirically estimated model congruence to estimate whether the relative ranking of methods is likely to have occurred by chance. According to our results, the majority (>80%) of papers claims outperformance when introducing a new method. Our analysis further revealed a high probability (>5%) of false outperformance claims in 86% of classification papers and 53% of segmentation papers. These findings highlight a critical flaw in current benchmarking practices: claims of outperformance in medical imaging AI are frequently unsubstantiated, posing a risk of misdirecting future research efforts.
- Abstract(参考訳): パフォーマンス比較は、医療画像人工知能(AI)研究において基本的なものであり、一般的なパフォーマンス指標の相対的な改善に基づいて、しばしば優位性の主張を駆動する。
しかし、このような主張は経験的な平均的なパフォーマンスにのみ依存することが多い。
本稿では,医用画像論文の代表的コホートを分析することによって,新たに提案された手法が,最先端技術より真に優れているかどうかを検討する。
本研究では,提案手法の相対的ランク付けが偶然に起こりうるかどうかを推定するために,実験的に推定されたモデル一致とともに報告された結果を活用するベイズ的アプローチに基づいて,虚偽クレームの確率を定量化する。
その結果, 論文の過半数 (>80%) は, 新たな手法の導入時の性能低下を訴えている。
さらに,分類論文の86%,分節論文の53%において,偽アウトパフォーマンスクレームの確率(>5%)が高かった。
これらの発見は、現在のベンチマークのプラクティスにおける重大な欠陥を浮き彫りにしている。
関連論文リスト
- A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging [2.0890189482817165]
医療画像におけるバイアスがAIモデルに与える影響を調査するための新しい分析フレームワークを提案する。
医用画像AIの偏りを評価するために, サイリコ試験の制御を行うためのこのフレームワークを開発し, テストした。
論文 参考訳(メタデータ) (2023-11-03T01:37:28Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Towards a Guideline for Evaluation Metrics in Medical Image Segmentation [0.0]
本研究は、医療画像分割評価のための以下の指標の概要と解釈ガイドを提供する。
要約として,標準化された医用画像分割評価のためのガイドラインを提案する。
論文 参考訳(メタデータ) (2022-02-10T13:38:05Z) - Performance or Trust? Why Not Both. Deep AUC Maximization with
Self-Supervised Learning for COVID-19 Chest X-ray Classifications [72.52228843498193]
ディープラーニングモデルのトレーニングでは、パフォーマンスと信頼の間に妥協をしなければなりません。
本研究は、新型コロナウイルス患者のコンピュータ支援スクリーニングのための自己教師型学習と新しい代理損失を統合したものである。
論文 参考訳(メタデータ) (2021-12-14T21:16:52Z) - Explaining medical AI performance disparities across sites with
confounder Shapley value analysis [8.785345834486057]
マルチサイト評価は、このような格差を診断する鍵となる。
本フレームワークは,各種類のバイアスが全体の性能差に与える影響を定量化する手法を提供する。
本研究は, 深部学習モデルを用いて気胸の有無を検知し, その有用性を実証するものである。
論文 参考訳(メタデータ) (2021-11-12T18:54:10Z) - A new baseline for retinal vessel segmentation: Numerical identification
and correction of methodological inconsistencies affecting 100+ papers [0.0]
得られた性能スコアのコヒーレンスに関する詳細な数値解析を行った。
視野の使用に関する報告結果に矛盾が認められた。
これまでに達成された最高精度はFoV領域の0.9582であり、これは人間のアノテーションよりも1%高い。
論文 参考訳(メタデータ) (2021-11-06T11:09:11Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - On the role of surrogates in the efficient estimation of treatment effects with limited outcome data [43.17788100119767]
一次利害関係にない結果のみを代理する単位にデータを組み込むことは、ATE推定の精度を高めることができる。
我々は,これらの効率向上を実現するために,ロバストなATE推定と推論手法を開発した。
論文 参考訳(メタデータ) (2020-03-27T13:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。