論文の概要: Revisiting Performance Claims for Chest X-Ray Models Using Clinical Context
- arxiv url: http://arxiv.org/abs/2509.19671v1
- Date: Wed, 24 Sep 2025 01:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.650467
- Title: Revisiting Performance Claims for Chest X-Ray Models Using Clinical Context
- Title(参考訳): 臨床コンテキストを用いた胸部X線モデルの性能クレームの再検討
- Authors: Andrew Wang, Jiashuo Zhang, Michael Oberst,
- Abstract要約: それぞれのCXRに先立って記録された放電サマリーを用いて,各CXRラベルの事前検査または事前試験の確率を導出する。
いくつかの診断ラベルでは、CXRモデルはテスト前の確率が非常に低い場合に最もよく機能する傾向にある。
このショートカットが存在しないバランスの取れたテストセットでは,パフォーマンスが急激に低下していることが分かりました。
- 参考スコア(独自算出の注目度): 12.0757445616255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public healthcare datasets of Chest X-Rays (CXRs) have long been a popular benchmark for developing computer vision models in healthcare. However, strong average-case performance of machine learning (ML) models on these datasets is insufficient to certify their clinical utility. In this paper, we use clinical context, as captured by prior discharge summaries, to provide a more holistic evaluation of current ``state-of-the-art'' models for the task of CXR diagnosis. Using discharge summaries recorded prior to each CXR, we derive a ``prior'' or ``pre-test'' probability of each CXR label, as a proxy for existing contextual knowledge available to clinicians when interpreting CXRs. Using this measure, we demonstrate two key findings: First, for several diagnostic labels, CXR models tend to perform best on cases where the pre-test probability is very low, and substantially worse on cases where the pre-test probability is higher. Second, we use pre-test probability to assess whether strong average-case performance reflects true diagnostic signal, rather than an ability to infer the pre-test probability as a shortcut. We find that performance drops sharply on a balanced test set where this shortcut does not exist, which may indicate that much of the apparent diagnostic power derives from inferring this clinical context. We argue that this style of analysis, using context derived from clinical notes, is a promising direction for more rigorous and fine-grained evaluation of clinical vision models.
- Abstract(参考訳): Chest X-Rays (CXRs) の公衆医療データセットは、医療におけるコンピュータビジョンモデルを開発する上で、長い間人気のあるベンチマークであった。
しかし、これらのデータセット上での機械学習(ML)モデルの強力な平均ケース性能は、その臨床的有用性を証明するには不十分である。
そこで本稿では,CXR 診断における現在の「最先端」モデルの総合的な評価を行うために,前回放電サマリーが捉えた臨床状況を用いている。
各CXRに先行して記録された分泌サマリーを用いて,CXRを解釈する際に臨床医が利用可能な既存の文脈知識のプロキシとして,各CXRラベルの ``prior'' または ``pre-test'' 確率を導出した。
まず、いくつかの診断ラベルについて、CXRモデルは、テスト前の確率が非常に低い場合、テスト前の確率が高い場合、さらにひどい場合において、最もよく機能する傾向にあることを示す。
第二に、テスト前確率を用いて、テスト前確率をショートカットとして推測する機能ではなく、高い平均ケース性能が真の診断信号を反映するかどうかを評価する。
このショートカットが存在しないバランスの取れたテストセットでは, 診断能力の大部分が臨床症状の推測によるものであることが示唆される。
臨床検査結果から得られた文脈を用いたこの分析は,より厳密できめ細かな臨床視力モデル評価に有望な方向である,と我々は主張する。
関連論文リスト
- CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning [28.737391224748798]
胸部X線(CXR)課題に対するインターリーブ"思考答え"推論を実現するための最初の生成モデルであるCX-Mindを提案する。
CX-Mindはカリキュラム強化学習と検証プロセス報酬(RL-VPR)によって駆動される
CX-Mindは、視覚的理解、テキスト生成、アライメントにおいて、既存の医用および一般ドメインMLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-31T05:07:18Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology [33.51485504161335]
病理基盤モデル(PFM)の最初の包括的なベンチマークであるPathBenchを紹介する。
我々のフレームワークは大規模データを組み込んで,PFMの客観的比較を可能にする。
当院では10病院で8,549人の患者から15,888件のWSIを収集し,64件以上の診断・予後調査を行った。
論文 参考訳(メタデータ) (2025-05-26T16:42:22Z) - Zero-shot Medical Event Prediction Using a Generative Pre-trained Transformer on Electronic Health Records [8.575985305475355]
生成事前学習型トランス (GPT) は, EHRにおける時系列データを利用して, 将来の事象を予測できる。
これらのモデルの微調整はタスク固有のパフォーマンスを高めるが、多くの臨床予測タスクに適用するとコストがかかる。
事前訓練された基礎モデルはゼロショット予測設定で使用することができ、結果ごとに微調整された個別モデルに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-03-07T19:26:47Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。