論文の概要: Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT
- arxiv url: http://arxiv.org/abs/2602.10359v1
- Date: Tue, 10 Feb 2026 23:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.331747
- Title: Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT
- Title(参考訳): 校正を超えて:腹部外傷CTにおける基礎的モデル特異性
- Authors: Jineel H Raythatha, Shuchang Ye, Jeremy Hsu, Jinman Kim,
- Abstract要約: 基礎モデルを臨床実践に翻訳するには、複合分布シフト下での性能を評価する必要がある。
基礎モデルの特異性欠陥が負のクラスにおける不均一性と関連しているかどうかを検討した。
- 参考スコア(独自算出の注目度): 8.050646314390763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: Translating foundation models into clinical practice requires evaluating their performance under compound distribution shift, where severe class imbalance coexists with heterogeneous imaging appearances. This challenge is relevant for traumatic bowel injury, a rare but high-mortality diagnosis. We investigated whether specificity deficits in foundation models are associated with heterogeneity in the negative class. Methods: This retrospective study used the multi-institutional, RSNA Abdominal Traumatic Injury CT dataset (2019-2023), comprising scans from 23 centres. Two foundation models (MedCLIP, zero-shot; RadDINO, linear probe) were compared against three task-specific approaches (CNN, Transformer, Ensemble). Models were trained on 3,147 patients (2.3% bowel injury prevalence) and evaluated on an enriched 100-patient test set. To isolate negative-class effects, specificity was assessed in patients without bowel injury who had concurrent solid organ injury (n=58) versus no abdominal pathology (n=50). Results: Foundation models achieved equivalent discrimination to task-specific models (AUC, 0.64-0.68 versus 0.58-0.64) with higher sensitivity (79-91% vs 41-74%) but lower specificity (33-50% vs 50-88%). All models demonstrated high specificity in patients without abdominal pathology (84-100%). When solid organ injuries were present, specificity declined substantially for foundation models (50-51 percentage points) compared with smaller reductions of 12-41 percentage points for task-specific models. Conclusion: Foundation models matched task-specific discrimination without task-specific training, but their specificity deficits were driven primarily by confounding negative-class heterogeneity rather than prevalence alone. Susceptibility to negative-class heterogeneity decreased progressively with labelled training, suggesting adaptation is required before clinical implementation.
- Abstract(参考訳): 目的: 基礎モデルを臨床実践に翻訳するには, 異種画像の出現と重度のクラス不均衡が相まって, 複合分布シフト下での性能を評価する必要がある。
この課題は外傷性腸損傷、まれながら高死亡率の診断に関係している。
基礎モデルの特異性欠陥が負のクラスにおける不均一性と関連しているかどうかを検討した。
方法: 本研究は, RSNA腹部外傷CTデータセット(2019-2023)を用いた。
2つの基礎モデル(MedCLIP, 0-shot, RadDINO, linear probe)を3つのタスク固有のアプローチ(CNN, Transformer, Ensemble)と比較した。
モデルは3,147人の患者(2.3%)で訓練され、100人の患者を対象に評価された。
病理組織学的には,n=58,n=50,n=58と診断された。
結果: 基礎モデルはタスク特化モデル (AUC, 0.64-0.68 vs 0.58-0.64) と同等の差別を達成し、感度は79-91%対41-74%) が、特異性は低い(33-50%対50-88%)。
腹部疾患を伴わない症例(84-100%)では,いずれのモデルも高い特異性を示した。
固形臓器損傷が出現すると, 基礎モデル(50-51ポイント)では, タスク特異的モデルでは12-41ポイントの減少が有意に減少した。
結論: 基礎モデルはタスク固有の訓練を伴わずにタスク固有の差別と一致したが, その特異性の欠如は, 有病率のみではなく, 負のクラス不均一性の相違によって主に引き起こされた。
ラベル付きトレーニングにより, 陰性クラスの不均一性に対する感受性は徐々に低下し, 臨床導入までに適応が必要であることが示唆された。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Deep Unsupervised Anomaly Detection in Brain Imaging: Large-Scale Benchmarking and Bias Analysis [42.60508892284938]
脳画像の深部教師なし異常検出のための大規模マルチセンターベンチマークを提案する。
健康なデータセットと多様な臨床コホートにまたがる2,221T1wと1,262T2wのスキャンを行った。
我々のベンチマークは今後の研究の透明な基盤を確立し、臨床翻訳の優先順位を強調している。
論文 参考訳(メタデータ) (2025-12-01T11:03:27Z) - MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis [40.3028468133626]
MIL(Multiple Case Learning)は、コンピュータ病理学における全スライド画像(WSI)解析の主流パラダイムとして登場した。
因果関係を意識したMILフレームワークである textbfMeCaMIL は、構造化因果グラフを通じて、階層的共同創設者を明示的にモデル化する。
MeCaMILは優れた公正性を達成する -- 人口格差の分散は、属性全体の平均で65%以上減少する。
論文 参考訳(メタデータ) (2025-11-14T06:47:21Z) - Taylor-Series Expanded Kolmogorov-Arnold Network for Medical Imaging Classification [0.0]
本研究は,限られた多様なデータセットを用いた正確な医用画像分類のためのKAN(Kolmogorov-Arnold Networks)を紹介する。
モデルはSBTAYLOR-KAN、B-splinesとTaylorシリーズの統合、SBRBF-KAN、Morletウェーブレット変換にB-splinesを埋め込むSBWAVELET-KANである。
脳MRI,胸部X線,結核X線,皮膚病変画像を前処理なしで評価した。
論文 参考訳(メタデータ) (2025-09-17T04:33:54Z) - Deep Learning for Glioblastoma Morpho-pathological Features Identification: A BraTS-Pathology Challenge Solution [5.347187213114967]
我々は2024年のBraTS-Path Challengeにアプローチを提示する。
トレーニング済みのモデルを活用して、BraTS-Pathトレーニングデータセットに微調整します。
我々のモデルは0.898704の完全特異性を示し、負のケースを正しく分類する特別な能力を示している。
論文 参考訳(メタデータ) (2025-07-24T06:47:23Z) - Correcting Class Imbalances with Self-Training for Improved Universal Lesion Detection and Tagging [43.06199185109424]
CT研究におけるユニバーサル病変検出・タグング(ULDT)は,腫瘍の負担評価と経過に伴う病変の進行(成長・収縮)の追跡に重要である。
以前の研究では、DeepLesionデータセット(4,427人、研究10,594人、CTスライス32,120人、病変32,735人、体の一部のラベル8人)をアルゴリズム開発に使用していたが、このデータセットは完全に注釈付けされておらず、クラス不均衡を含んでいる。
我々は,DeepLesionの11.5%のサブセットを限定的に使用して,ULDTのための自己学習パイプラインを開発した。
論文 参考訳(メタデータ) (2025-04-07T15:57:03Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。
われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文 参考訳(メタデータ) (2024-10-14T13:49:04Z) - A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification [1.9499122087408571]
病理組織学の基礎モデルは、多くのタスクにまたがる大きな約束を示している。
これまでで最も厳格な単一タスクによる病理組織学的基盤モデルの検証を報告した。
病理組織学的基盤モデルは卵巣がんの亜型化に明確な利益をもたらす。
論文 参考訳(メタデータ) (2024-05-16T11:21:02Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Multi-institutional Validation of Two-Streamed Deep Learning Method for
Automated Delineation of Esophageal Gross Tumor Volume using planning-CT and
FDG-PETCT [14.312659667401302]
食道悪性腫瘍容積(GTV)コントゥーリングの現況は,高作業コストとユーザ間の変動を手作業で記述することに依存している。
1施設で開発された深層学習(DL)多モード食道GTVコンチューリングモデルの臨床的応用性を検証する。
論文 参考訳(メタデータ) (2021-10-11T13:56:09Z) - CT-based COVID-19 Triage: Deep Multitask Learning Improves Joint
Identification and Severity Quantification [45.86448200141968]
感染リスクのある患者をできるだけ早期に分離する研究を優先するための新型コロナウイルスの同定、重度定量化、重篤な患者の研究の強調、病院への誘導、救急医療の提供の2つの基本的な設定について述べる。
両トリアージアプローチを統合するマルチタスクアプローチを提案し、利用可能なラベルを1つのモデルにまとめる畳み込みニューラルネットワークを提案する。
我々は約2000件の公開CT研究をトレーニングし、32件のCOVID-19研究、30件の細菌性肺炎、31件の健常患者、および30件の肺病理患者からなる慎重に設計したセットを用いて、典型的な患者の血流をエミュレートする。
論文 参考訳(メタデータ) (2020-06-02T08:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。