論文の概要: From Embeddings to Accuracy: Comparing Foundation Models for Radiographic Classification
- arxiv url: http://arxiv.org/abs/2505.10823v2
- Date: Wed, 03 Sep 2025 20:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.734806
- Title: From Embeddings to Accuracy: Comparing Foundation Models for Radiographic Classification
- Title(参考訳): 埋め込みから精度:X線学的分類の基礎モデルの比較
- Authors: Xue Li, Jameson Merkow, Noel C. F. Codella, Alberto Santamaria-Pang, Naiteek Sangani, Alexander Ersoy, Christopher Burt, John W. Garrett, Richard J. Bruce, Joshua D. Warner, Tyler Bradshaw, Ivan Tarapov, Matthew P. Lungren, Alan B. McMillan,
- Abstract要約: ラジオグラフィー分類における軽量アダプタの訓練のための7つの基礎モデルからの埋め込みを評価する。
MedImageInsightの埋め込みとSVMとアダプタの組み合わせは、曲線(mAUC)における平均面積が93.1%に達した。
これらの軽量グループは計算効率が良く、数分でトレーニングし、CPU上で数秒で推論を行う。
- 参考スコア(独自算出の注目度): 33.96915720287914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models provide robust embeddings for diverse tasks, including medical imaging. We evaluate embeddings from seven general and medical-specific foundation models (e.g., DenseNet121, BiomedCLIP, MedImageInsight, Rad-DINO, CXR-Foundation) for training lightweight adapters in multi-class radiography classification. Using a dataset of 8,842 radiographs across seven classes, we trained adapters with algorithms like K-Nearest Neighbors, logistic regression, SVM, random forest, and MLP. The combination of MedImageInsight embeddings with an SVM or MLP adapter achieved the highest mean area under the curve (mAUC) of 93.1%. This performance was statistically superior to other models, including MedSigLIP with an MLP (91.0%), Rad-DINO with an SVM (90.7%), and CXR-Foundation with logistic regression (88.6%). In contrast, models like BiomedCLIP (82.8%) and Med-Flamingo (78.5%) showed lower performance. Crucially, these lightweight adapters are computationally efficient, training in minutes and performing inference in seconds on a CPU, making them practical for clinical use. A fairness analysis of the top-performing MedImageInsight adapter revealed minimal performance disparities across patient gender (within 1.8%) and age groups (std. dev < 1.4%), with no significant statistical differences. These findings confirm that embeddings from specialized foundation models, particularly MedImageInsight, can power accurate, efficient, and equitable diagnostic tools using simple, lightweight adapters.
- Abstract(参考訳): ファンデーションモデルは、医療画像を含む様々なタスクに堅牢な埋め込みを提供する。
マルチクラスラジオグラフィー分類における軽量アダプタの訓練のために,7つの一般および医療用基盤モデル(DenseNet121,BiomedCLIP,MedImageInsight,Rad-DINO,CXR-Foundation)の埋め込みを評価した。
7つのクラスにわたる8,842のラジオグラフのデータセットを使用して、K-Nearest Neighbors、ロジスティック回帰、SVM、ランダムフォレスト、MPPといったアルゴリズムでアダプタを訓練しました。
MedImageInsight と SVM または MLP アダプタの組み合わせは、曲線 (mAUC) における最高平均面積 93.1% を達成した。
MLPのMedSigLIP(91.0%)、SVMのRad-DINO(90.7%)、ロジスティック回帰のCXR-Foundation(88.6%)など、他のモデルよりも統計的に優れている。
対照的に、BiomedCLIP (82.8%)やMed-Flamingo (78.5%)のようなモデルでは性能が低下した。
重要なのは、これらの軽量アダプタは計算効率が良く、数分でトレーニングし、CPU上で数秒で推論を行うため、臨床用途に実用的だ。
MedImageInsightアダプタのフェアネス分析では, 性別(約1.8%)と年齢群(約1.4%)で, 有意な統計的差異は認められなかった。
これらの結果は、特にMedImageInsightのような特定の基礎モデルからの埋め込みが、シンプルで軽量なアダプタを使用して、正確で効率的で公平な診断ツールに電力を供給することを裏付けている。
関連論文リスト
- Enhanced Multi-Class Classification of Gastrointestinal Endoscopic Images with Interpretable Deep Learning Model [0.7349657385817541]
本研究は,Kvasirデータセットから8000個のラベル付き内視鏡画像を用いて分類精度を向上させる新しい手法を提案する。
提案したアーキテクチャは、適度なモデルの複雑さを保ちながら、データ拡張への依存をなくす。
テスト精度は94.25%、精度は94.29%、リコールは94.24%である。
論文 参考訳(メタデータ) (2025-03-02T08:07:50Z) - MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention [1.2277343096128712]
本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。
提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
論文 参考訳(メタデータ) (2025-01-07T14:49:12Z) - Embeddings are all you need! Achieving High Performance Medical Image Classification through Training-Free Embedding Analysis [0.0]
医療画像のための人工知能(AI)と機械学習(ML)モデルの開発は通常、大規模なデータセットに対する広範なトレーニングとテストを含む。
従来の訓練手順を埋め込み型アプローチで置き換える可能性について検討した。
論文 参考訳(メタデータ) (2024-12-12T16:59:37Z) - InfLocNet: Enhanced Lung Infection Localization and Disease Detection from Chest X-Ray Images Using Lightweight Deep Learning [0.5242869847419834]
本稿では,より軽量な深層学習に基づくセグメンテーション分類ネットワークを提案する。
胸部X線画像を用いた肺感染症の検出と局在性の向上を目的としている。
IoUは93.59%, Dice similarity Coefficient (DSC)は97.61%であった。
論文 参考訳(メタデータ) (2024-08-12T19:19:23Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Improving Disease Classification Performance and Explainability of Deep
Learning Models in Radiology with Heatmap Generators [0.0]
3つの実験セットがU-Netアーキテクチャを用いて行われ、分類性能が向上した。
最大の改善点は「肺炎」クラスと「CHF」クラスであり、ベースラインモデルは分類に最も苦労した。
論文 参考訳(メタデータ) (2022-06-28T13:03:50Z) - GSDA: Generative Adversarial Network-based Semi-Supervised Data
Augmentation for Ultrasound Image Classification [8.554511144730387]
医用超音波(英語: Medical Ultrasound、略称:US)は、臨床において最も広く用いられる画像のモダリティの一つである。
ディープラーニング(DL)モデルは、先進的な米国の画像分析ツールとして機能するが、大規模なデータセットの不足により、その性能は大幅に制限される。
我々はGANに基づく半教師付きデータ拡張法を開発した。
論文 参考訳(メタデータ) (2022-03-11T16:52:14Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Y-Net for Chest X-Ray Preprocessing: Simultaneous Classification of
Geometry and Segmentation of Annotations [70.0118756144807]
この研究は、機械学習アルゴリズムに胸部X線入力のための一般的な前処理ステップを導入する。
VGG11エンコーダをベースとした改良Y-Netアーキテクチャを用いて,ラジオグラフィの幾何学的配向とセグメンテーションを同時に学習する。
対照画像の27.0%,34.9%に対し,95.8%,96.2%のアノテーションマスクが認められた。
論文 参考訳(メタデータ) (2020-05-08T02:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。