論文の概要: From Embeddings to Accuracy: Comparing Foundation Models for Radiographic Classification
- arxiv url: http://arxiv.org/abs/2505.10823v2
- Date: Wed, 03 Sep 2025 20:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.734806
- Title: From Embeddings to Accuracy: Comparing Foundation Models for Radiographic Classification
- Title(参考訳): 埋め込みから精度:X線学的分類の基礎モデルの比較
- Authors: Xue Li, Jameson Merkow, Noel C. F. Codella, Alberto Santamaria-Pang, Naiteek Sangani, Alexander Ersoy, Christopher Burt, John W. Garrett, Richard J. Bruce, Joshua D. Warner, Tyler Bradshaw, Ivan Tarapov, Matthew P. Lungren, Alan B. McMillan,
- Abstract要約: ラジオグラフィー分類における軽量アダプタの訓練のための7つの基礎モデルからの埋め込みを評価する。
MedImageInsightの埋め込みとSVMとアダプタの組み合わせは、曲線(mAUC)における平均面積が93.1%に達した。
これらの軽量グループは計算効率が良く、数分でトレーニングし、CPU上で数秒で推論を行う。
- 参考スコア(独自算出の注目度): 33.96915720287914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models provide robust embeddings for diverse tasks, including medical imaging. We evaluate embeddings from seven general and medical-specific foundation models (e.g., DenseNet121, BiomedCLIP, MedImageInsight, Rad-DINO, CXR-Foundation) for training lightweight adapters in multi-class radiography classification. Using a dataset of 8,842 radiographs across seven classes, we trained adapters with algorithms like K-Nearest Neighbors, logistic regression, SVM, random forest, and MLP. The combination of MedImageInsight embeddings with an SVM or MLP adapter achieved the highest mean area under the curve (mAUC) of 93.1%. This performance was statistically superior to other models, including MedSigLIP with an MLP (91.0%), Rad-DINO with an SVM (90.7%), and CXR-Foundation with logistic regression (88.6%). In contrast, models like BiomedCLIP (82.8%) and Med-Flamingo (78.5%) showed lower performance. Crucially, these lightweight adapters are computationally efficient, training in minutes and performing inference in seconds on a CPU, making them practical for clinical use. A fairness analysis of the top-performing MedImageInsight adapter revealed minimal performance disparities across patient gender (within 1.8%) and age groups (std. dev < 1.4%), with no significant statistical differences. These findings confirm that embeddings from specialized foundation models, particularly MedImageInsight, can power accurate, efficient, and equitable diagnostic tools using simple, lightweight adapters.
- Abstract(参考訳): ファンデーションモデルは、医療画像を含む様々なタスクに堅牢な埋め込みを提供する。
マルチクラスラジオグラフィー分類における軽量アダプタの訓練のために,7つの一般および医療用基盤モデル(DenseNet121,BiomedCLIP,MedImageInsight,Rad-DINO,CXR-Foundation)の埋め込みを評価した。
7つのクラスにわたる8,842のラジオグラフのデータセットを使用して、K-Nearest Neighbors、ロジスティック回帰、SVM、ランダムフォレスト、MPPといったアルゴリズムでアダプタを訓練しました。
MedImageInsight と SVM または MLP アダプタの組み合わせは、曲線 (mAUC) における最高平均面積 93.1% を達成した。
MLPのMedSigLIP(91.0%)、SVMのRad-DINO(90.7%)、ロジスティック回帰のCXR-Foundation(88.6%)など、他のモデルよりも統計的に優れている。
対照的に、BiomedCLIP (82.8%)やMed-Flamingo (78.5%)のようなモデルでは性能が低下した。
重要なのは、これらの軽量アダプタは計算効率が良く、数分でトレーニングし、CPU上で数秒で推論を行うため、臨床用途に実用的だ。
MedImageInsightアダプタのフェアネス分析では, 性別(約1.8%)と年齢群(約1.4%)で, 有意な統計的差異は認められなかった。
これらの結果は、特にMedImageInsightのような特定の基礎モデルからの埋め込みが、シンプルで軽量なアダプタを使用して、正確で効率的で公平な診断ツールに電力を供給することを裏付けている。
関連論文リスト
- Taylor-Series Expanded Kolmogorov-Arnold Network for Medical Imaging Classification [0.0]
本研究は,限られた多様なデータセットを用いた正確な医用画像分類のためのKAN(Kolmogorov-Arnold Networks)を紹介する。
モデルはSBTAYLOR-KAN、B-splinesとTaylorシリーズの統合、SBRBF-KAN、Morletウェーブレット変換にB-splinesを埋め込むSBWAVELET-KANである。
脳MRI,胸部X線,結核X線,皮膚病変画像を前処理なしで評価した。
論文 参考訳(メタデータ) (2025-09-17T04:33:54Z) - Enhanced Multi-Class Classification of Gastrointestinal Endoscopic Images with Interpretable Deep Learning Model [0.7349657385817541]
本研究は,Kvasirデータセットから8000個のラベル付き内視鏡画像を用いて分類精度を向上させる新しい手法を提案する。
提案したアーキテクチャは、適度なモデルの複雑さを保ちながら、データ拡張への依存をなくす。
テスト精度は94.25%、精度は94.29%、リコールは94.24%である。
論文 参考訳(メタデータ) (2025-03-02T08:07:50Z) - Deep learning and classical computer vision techniques in medical image analysis: Case studies on brain MRI tissue segmentation, lung CT COPD registration, and skin lesion classification [0.0]
本研究は,複数の画像モダリティにまたがるセグメンテーション,登録,分類タスクを体系的に評価した最初のものである。
脳組織のセグメンテーションでは、3D DLモデルは2Dモデルとパッチベースモデルより優れており、特に nnU-Net の Dice は 0.9397 である。
肺CTでは、古典エラスティス法がDLモデルより優れ、最小目標登録誤差(TRE)は6.68mmであった。
皮膚病変分類では、InceptionResNetV2やResNet50のようなDLモデルのアンサンブルが優れ、最大90.44%、バイナリとマルチの93.62%の精度が達成された。
論文 参考訳(メタデータ) (2025-02-26T16:05:08Z) - MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention [1.2277343096128712]
本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。
提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
論文 参考訳(メタデータ) (2025-01-07T14:49:12Z) - Embeddings are all you need! Achieving High Performance Medical Image Classification through Training-Free Embedding Analysis [0.0]
医療画像のための人工知能(AI)と機械学習(ML)モデルの開発は通常、大規模なデータセットに対する広範なトレーニングとテストを含む。
従来の訓練手順を埋め込み型アプローチで置き換える可能性について検討した。
論文 参考訳(メタデータ) (2024-12-12T16:59:37Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - InfLocNet: Enhanced Lung Infection Localization and Disease Detection from Chest X-Ray Images Using Lightweight Deep Learning [0.5242869847419834]
本稿では,より軽量な深層学習に基づくセグメンテーション分類ネットワークを提案する。
胸部X線画像を用いた肺感染症の検出と局在性の向上を目的としている。
IoUは93.59%, Dice similarity Coefficient (DSC)は97.61%であった。
論文 参考訳(メタデータ) (2024-08-12T19:19:23Z) - MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks [6.8948885302235325]
本稿では,入力医療画像と自然事前学習型視覚モデルとのギャップを埋めるために視覚刺激(VP)を導入する。
本稿では,分類損失と差分損失を含む共同学習損失関数を設計し,インパルス画像とプレーン画像のばらつきを記述した。
分布医学データセットの内訳では,本手法(90.33%)はFF(85.15%)を5.18%リードで上回りうる。
論文 参考訳(メタデータ) (2024-05-13T01:18:25Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction [4.659998272408215]
肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-02-27T03:53:27Z) - Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical
Vision Foundation Models [71.18275399694689]
医療視基盤モデルにおけるPEFTの有効性はまだ不明である。
NIH ChestX-ray14のラベル付きデータを用いたAUROCスコアの80.6%など,さまざまなデータ効率の学習タスクに対して,新たな最先端技術を構築した。
本研究は, PEFTを用いた医用画像の伝達学習において, コミュニティの注目を集めることが期待できる。
論文 参考訳(メタデータ) (2024-01-22T18:59:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Improving Disease Classification Performance and Explainability of Deep
Learning Models in Radiology with Heatmap Generators [0.0]
3つの実験セットがU-Netアーキテクチャを用いて行われ、分類性能が向上した。
最大の改善点は「肺炎」クラスと「CHF」クラスであり、ベースラインモデルは分類に最も苦労した。
論文 参考訳(メタデータ) (2022-06-28T13:03:50Z) - GSDA: Generative Adversarial Network-based Semi-Supervised Data
Augmentation for Ultrasound Image Classification [8.554511144730387]
医用超音波(英語: Medical Ultrasound、略称:US)は、臨床において最も広く用いられる画像のモダリティの一つである。
ディープラーニング(DL)モデルは、先進的な米国の画像分析ツールとして機能するが、大規模なデータセットの不足により、その性能は大幅に制限される。
我々はGANに基づく半教師付きデータ拡張法を開発した。
論文 参考訳(メタデータ) (2022-03-11T16:52:14Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Y-Net for Chest X-Ray Preprocessing: Simultaneous Classification of
Geometry and Segmentation of Annotations [70.0118756144807]
この研究は、機械学習アルゴリズムに胸部X線入力のための一般的な前処理ステップを導入する。
VGG11エンコーダをベースとした改良Y-Netアーキテクチャを用いて,ラジオグラフィの幾何学的配向とセグメンテーションを同時に学習する。
対照画像の27.0%,34.9%に対し,95.8%,96.2%のアノテーションマスクが認められた。
論文 参考訳(メタデータ) (2020-05-08T02:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。