論文の概要: Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT
- arxiv url: http://arxiv.org/abs/2602.10359v1
- Date: Tue, 10 Feb 2026 23:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.331747
- Title: Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT
- Title(参考訳): 校正を超えて:腹部外傷CTにおける基礎的モデル特異性
- Authors: Jineel H Raythatha, Shuchang Ye, Jeremy Hsu, Jinman Kim,
- Abstract要約: 基礎モデルを臨床実践に翻訳するには、複合分布シフト下での性能を評価する必要がある。
基礎モデルの特異性欠陥が負のクラスにおける不均一性と関連しているかどうかを検討した。
- 参考スコア(独自算出の注目度): 8.050646314390763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: Translating foundation models into clinical practice requires evaluating their performance under compound distribution shift, where severe class imbalance coexists with heterogeneous imaging appearances. This challenge is relevant for traumatic bowel injury, a rare but high-mortality diagnosis. We investigated whether specificity deficits in foundation models are associated with heterogeneity in the negative class. Methods: This retrospective study used the multi-institutional, RSNA Abdominal Traumatic Injury CT dataset (2019-2023), comprising scans from 23 centres. Two foundation models (MedCLIP, zero-shot; RadDINO, linear probe) were compared against three task-specific approaches (CNN, Transformer, Ensemble). Models were trained on 3,147 patients (2.3% bowel injury prevalence) and evaluated on an enriched 100-patient test set. To isolate negative-class effects, specificity was assessed in patients without bowel injury who had concurrent solid organ injury (n=58) versus no abdominal pathology (n=50). Results: Foundation models achieved equivalent discrimination to task-specific models (AUC, 0.64-0.68 versus 0.58-0.64) with higher sensitivity (79-91% vs 41-74%) but lower specificity (33-50% vs 50-88%). All models demonstrated high specificity in patients without abdominal pathology (84-100%). When solid organ injuries were present, specificity declined substantially for foundation models (50-51 percentage points) compared with smaller reductions of 12-41 percentage points for task-specific models. Conclusion: Foundation models matched task-specific discrimination without task-specific training, but their specificity deficits were driven primarily by confounding negative-class heterogeneity rather than prevalence alone. Susceptibility to negative-class heterogeneity decreased progressively with labelled training, suggesting adaptation is required before clinical implementation.
- Abstract(参考訳): 目的: 基礎モデルを臨床実践に翻訳するには, 異種画像の出現と重度のクラス不均衡が相まって, 複合分布シフト下での性能を評価する必要がある。
この課題は外傷性腸損傷、まれながら高死亡率の診断に関係している。
基礎モデルの特異性欠陥が負のクラスにおける不均一性と関連しているかどうかを検討した。
方法: 本研究は, RSNA腹部外傷CTデータセット(2019-2023)を用いた。
2つの基礎モデル(MedCLIP, 0-shot, RadDINO, linear probe)を3つのタスク固有のアプローチ(CNN, Transformer, Ensemble)と比較した。
モデルは3,147人の患者(2.3%)で訓練され、100人の患者を対象に評価された。
病理組織学的には,n=58,n=50,n=58と診断された。
結果: 基礎モデルはタスク特化モデル (AUC, 0.64-0.68 vs 0.58-0.64) と同等の差別を達成し、感度は79-91%対41-74%) が、特異性は低い(33-50%対50-88%)。
腹部疾患を伴わない症例(84-100%)では,いずれのモデルも高い特異性を示した。
固形臓器損傷が出現すると, 基礎モデル(50-51ポイント)では, タスク特異的モデルでは12-41ポイントの減少が有意に減少した。
結論: 基礎モデルはタスク固有の訓練を伴わずにタスク固有の差別と一致したが, その特異性の欠如は, 有病率のみではなく, 負のクラス不均一性の相違によって主に引き起こされた。
ラベル付きトレーニングにより, 陰性クラスの不均一性に対する感受性は徐々に低下し, 臨床導入までに適応が必要であることが示唆された。
関連論文リスト
- Deep Unsupervised Anomaly Detection in Brain Imaging: Large-Scale Benchmarking and Bias Analysis [42.60508892284938]
脳画像の深部教師なし異常検出のための大規模マルチセンターベンチマークを提案する。
健康なデータセットと多様な臨床コホートにまたがる2,221T1wと1,262T2wのスキャンを行った。
我々のベンチマークは今後の研究の透明な基盤を確立し、臨床翻訳の優先順位を強調している。
論文 参考訳(メタデータ) (2025-12-01T11:03:27Z) - MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis [40.3028468133626]
MIL(Multiple Case Learning)は、コンピュータ病理学における全スライド画像(WSI)解析の主流パラダイムとして登場した。
因果関係を意識したMILフレームワークである textbfMeCaMIL は、構造化因果グラフを通じて、階層的共同創設者を明示的にモデル化する。
MeCaMILは優れた公正性を達成する -- 人口格差の分散は、属性全体の平均で65%以上減少する。
論文 参考訳(メタデータ) (2025-11-14T06:47:21Z) - Deep Learning for Glioblastoma Morpho-pathological Features Identification: A BraTS-Pathology Challenge Solution [5.347187213114967]
我々は2024年のBraTS-Path Challengeにアプローチを提示する。
トレーニング済みのモデルを活用して、BraTS-Pathトレーニングデータセットに微調整します。
我々のモデルは0.898704の完全特異性を示し、負のケースを正しく分類する特別な能力を示している。
論文 参考訳(メタデータ) (2025-07-24T06:47:23Z) - Correcting Class Imbalances with Self-Training for Improved Universal Lesion Detection and Tagging [43.06199185109424]
CT研究におけるユニバーサル病変検出・タグング(ULDT)は,腫瘍の負担評価と経過に伴う病変の進行(成長・収縮)の追跡に重要である。
以前の研究では、DeepLesionデータセット(4,427人、研究10,594人、CTスライス32,120人、病変32,735人、体の一部のラベル8人)をアルゴリズム開発に使用していたが、このデータセットは完全に注釈付けされておらず、クラス不均衡を含んでいる。
我々は,DeepLesionの11.5%のサブセットを限定的に使用して,ULDTのための自己学習パイプラインを開発した。
論文 参考訳(メタデータ) (2025-04-07T15:57:03Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。
われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文 参考訳(メタデータ) (2024-10-14T13:49:04Z) - A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification [1.9499122087408571]
病理組織学の基礎モデルは、多くのタスクにまたがる大きな約束を示している。
これまでで最も厳格な単一タスクによる病理組織学的基盤モデルの検証を報告した。
病理組織学的基盤モデルは卵巣がんの亜型化に明確な利益をもたらす。
論文 参考訳(メタデータ) (2024-05-16T11:21:02Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Multi-institutional Validation of Two-Streamed Deep Learning Method for
Automated Delineation of Esophageal Gross Tumor Volume using planning-CT and
FDG-PETCT [14.312659667401302]
食道悪性腫瘍容積(GTV)コントゥーリングの現況は,高作業コストとユーザ間の変動を手作業で記述することに依存している。
1施設で開発された深層学習(DL)多モード食道GTVコンチューリングモデルの臨床的応用性を検証する。
論文 参考訳(メタデータ) (2021-10-11T13:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。