Fugu-MT 論文翻訳(概要): False Promises in Medical Imaging AI? Assessing Validity of Outperformance Claims

論文の概要: False Promises in Medical Imaging AI? Assessing Validity of Outperformance Claims

arxiv url: http://arxiv.org/abs/2505.04720v1
Date: Wed, 07 May 2025 18:15:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.639383
Title: False Promises in Medical Imaging AI? Assessing Validity of Outperformance Claims
Title（参考訳）: 医療画像AIにおける偽の約束 : アウトパフォーマンス・クレームの妥当性を評価する
Authors: Evangelia Christodoulou, Annika Reinke, Pascaline Andrè, Patrick Godau, Piotr Kalinowski, Rola Houhou, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofiène Boutaj, Sophie Loizillon, Maëlys Solal, Veronika Cheplygina, Charles Heitz, Michal Kozubek, Michela Antonelli, Nicola Rieke, Antoine Gilson, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Annette Kopp-Schneider, Gaël Varoquaux, Olivier Colliot, Lena Maier-Hein,
Abstract要約: 医用画像論文の代表的コホートを解析し,新たに提案した手法が真に最先端であるか否かを考察した。以上の結果から,新手法の導入時の性能の低下が報告されている。さらに,分類論文の86%,分節論文の53%において,偽アウトパフォーマンスクレームの確率(>5%)が高かった。
参考スコア（独自算出の注目度）: 8.947888057954343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Performance comparisons are fundamental in medical imaging Artificial Intelligence (AI) research, often driving claims of superiority based on relative improvements in common performance metrics. However, such claims frequently rely solely on empirical mean performance. In this paper, we investigate whether newly proposed methods genuinely outperform the state of the art by analyzing a representative cohort of medical imaging papers. We quantify the probability of false claims based on a Bayesian approach that leverages reported results alongside empirically estimated model congruence to estimate whether the relative ranking of methods is likely to have occurred by chance. According to our results, the majority (>80%) of papers claims outperformance when introducing a new method. Our analysis further revealed a high probability (>5%) of false outperformance claims in 86% of classification papers and 53% of segmentation papers. These findings highlight a critical flaw in current benchmarking practices: claims of outperformance in medical imaging AI are frequently unsubstantiated, posing a risk of misdirecting future research efforts.
Abstract（参考訳）: パフォーマンス比較は、医療画像人工知能(AI)研究において基本的なものであり、一般的なパフォーマンス指標の相対的な改善に基づいて、しばしば優位性の主張を駆動する。しかし、このような主張は経験的な平均的なパフォーマンスにのみ依存することが多い。本稿では,医用画像論文の代表的コホートを分析することによって,新たに提案された手法が,最先端技術より真に優れているかどうかを検討する。本研究では,提案手法の相対的ランク付けが偶然に起こりうるかどうかを推定するために,実験的に推定されたモデル一致とともに報告された結果を活用するベイズ的アプローチに基づいて,虚偽クレームの確率を定量化する。その結果, 論文の過半数 (>80%) は, 新たな手法の導入時の性能低下を訴えている。さらに,分類論文の86%,分節論文の53%において,偽アウトパフォーマンスクレームの確率(>5%)が高かった。これらの発見は、現在のベンチマークのプラクティスにおける重大な欠陥を浮き彫りにしている。

関連論文リスト

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文参考訳（メタデータ） (2026-02-04T15:24:52Z)
Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文参考訳（メタデータ） (2025-08-26T16:41:37Z)
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文参考訳（メタデータ） (2025-07-14T17:55:15Z)
A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。 MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文参考訳（メタデータ） (2025-03-10T15:38:44Z)
Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging [2.0890189482817165]
医療画像におけるバイアスがAIモデルに与える影響を調査するための新しい分析フレームワークを提案する。医用画像AIの偏りを評価するために, サイリコ試験の制御を行うためのこのフレームワークを開発し, テストした。
論文参考訳（メタデータ） (2023-11-03T01:37:28Z)
Too Good To Be True: performance overestimation in (re)current practices for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文参考訳（メタデータ） (2023-10-18T13:24:05Z)
Towards a Guideline for Evaluation Metrics in Medical Image Segmentation [0.0]
本研究は、医療画像分割評価のための以下の指標の概要と解釈ガイドを提供する。要約として,標準化された医用画像分割評価のためのガイドラインを提案する。
論文参考訳（メタデータ） (2022-02-10T13:38:05Z)
Performance or Trust? Why Not Both. Deep AUC Maximization with Self-Supervised Learning for COVID-19 Chest X-ray Classifications [72.52228843498193]
ディープラーニングモデルのトレーニングでは、パフォーマンスと信頼の間に妥協をしなければなりません。本研究は、新型コロナウイルス患者のコンピュータ支援スクリーニングのための自己教師型学習と新しい代理損失を統合したものである。
論文参考訳（メタデータ） (2021-12-14T21:16:52Z)
Explaining medical AI performance disparities across sites with confounder Shapley value analysis [8.785345834486057]
マルチサイト評価は、このような格差を診断する鍵となる。本フレームワークは,各種類のバイアスが全体の性能差に与える影響を定量化する手法を提供する。本研究は, 深部学習モデルを用いて気胸の有無を検知し, その有用性を実証するものである。
論文参考訳（メタデータ） (2021-11-12T18:54:10Z)
A new baseline for retinal vessel segmentation: Numerical identification and correction of methodological inconsistencies affecting 100+ papers [0.0]
得られた性能スコアのコヒーレンスに関する詳細な数値解析を行った。視野の使用に関する報告結果に矛盾が認められた。これまでに達成された最高精度はFoV領域の0.9582であり、これは人間のアノテーションよりも1%高い。
論文参考訳（メタデータ） (2021-11-06T11:09:11Z)
Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-09T12:26:27Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)
On the role of surrogates in the efficient estimation of treatment effects with limited outcome data [43.17788100119767]
一次利害関係にない結果のみを代理する単位にデータを組み込むことは、ATE推定の精度を高めることができる。我々は,これらの効率向上を実現するために,ロバストなATE推定と推論手法を開発した。
論文参考訳（メタデータ） (2020-03-27T13:31:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。