論文の概要: Scaling Down to Scale Up: Towards Operationally-Efficient and Deployable Clinical Models via Cross-Modal Low-Rank Adaptation for Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.00597v1
- Date: Sat, 29 Nov 2025 19:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.316425
- Title: Scaling Down to Scale Up: Towards Operationally-Efficient and Deployable Clinical Models via Cross-Modal Low-Rank Adaptation for Medical Vision-Language Models
- Title(参考訳): スケールアップへのスケールダウン:医療ビジョン・ランゲージモデルのためのクロスモーダル低ランク適応による手術効率・デプロイ可能な臨床モデルを目指して
- Authors: Thuraya Alzubaidi, Farhad R. Nezami, Muzammil Behzad,
- Abstract要約: 視覚言語による事前訓練によってトレーニングされた基礎モデルは、多様な画像領域にまたがる強力なゼロショット機能を示している。
MedCT-VLM(MedCT-VLM: Medical CT Vision-Language Model)を紹介する。
胸部疾患18例のゼロショット分類について検討し,CT埋め込みと未確認のテキストプロンプトを,タスク固有の訓練を伴わない推論で一致させなければならないことを示した。
- 参考スコア(独自算出の注目度): 0.30586855806896035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models trained via vision-language pretraining have demonstrated strong zero-shot capabilities across diverse image domains, yet their application to volumetric medical imaging remains limited. We introduce MedCT-VLM: Medical CT Vision-Language Model, a parameter-efficient vision-language framework designed to adapt large-scale CT foundation models for downstream clinical tasks. MedCT-VLM uses a parameter-efficient approach to adapt CT-CLIP, a contrastive vision-language model trained on 25,692 chest CT volumes, for multi-label pathology classification using Low-Rank Adaptation (LoRA). Rather than fine-tuning the model's 440 M parameters directly, we insert low-rank decomposition matrices into attention layers of both vision and text encoders, training only 1.67M parameters (0.38\% of total). We evaluate on zero-shot classification across 18 thoracic pathologies, where the model must align CT embeddings with unseen text prompts at inference without task-specific training. LoRA fine-tuning improves mean AUROC from 61.3\% to 68.9\% (+7.6 pp), accuracy from 67.2\% to 73.6\% (+6.4 pp), and macro-F1 from 32.1\% to 36.9\% (+4.8 pp). These results demonstrate that parameter-efficient methods can effectively transfer large-scale pretraining to downstream medical imaging tasks, particularly for zero-shot scenarios where labeled data is scarce.
- Abstract(参考訳): 視覚言語による事前訓練によって訓練された基礎モデルは、多様な画像領域にまたがる強力なゼロショット能力を示しているが、ボリューム医療画像への応用は限定的である。
MedCT-VLM:MedCT Vision-Language Modelは,大規模CT基盤モデルを下流臨床に適応させるために設計されたパラメータ効率の高い視覚言語フレームワークである。
MedCT-VLMは、低ランク適応(LoRA)を用いたマルチラベル病理分類のために、25,692個の胸部CTボリュームで訓練された対照的な視覚言語モデルであるCT-CLIPを適応するためのパラメータ効率のよいアプローチを用いる。
モデルの440Mパラメータを直接微調整する代わりに、視覚とテキストエンコーダの両方の注意層に低階分解行列を挿入し、1.67Mパラメータのみをトレーニングする(全体の0.38\%)。
胸部疾患18例のゼロショット分類について検討し,CT埋め込みと未確認のテキストプロンプトを,タスク固有の訓練を伴わない推論で一致させなければならないことを示した。
ロラ微調整により平均AUROCが61.3\%から68.9\%(+7.6pp)、精度が67.2\%から73.6\%(+6.4pp)、マクロF1が32.1\%から36.9\%(+4.8pp)となる。
これらの結果は,特にラベル付きデータが不足しているゼロショットシナリオにおいて,大規模プレトレーニングを下流の医療画像タスクに効果的に転送できることを示唆している。
関連論文リスト
- Deep learning and classical computer vision techniques in medical image analysis: Case studies on brain MRI tissue segmentation, lung CT COPD registration, and skin lesion classification [0.0]
本研究は,複数の画像モダリティにまたがるセグメンテーション,登録,分類タスクを体系的に評価した最初のものである。
脳組織のセグメンテーションでは、3D DLモデルは2Dモデルとパッチベースモデルより優れており、特に nnU-Net の Dice は 0.9397 である。
肺CTでは、古典エラスティス法がDLモデルより優れ、最小目標登録誤差(TRE)は6.68mmであった。
皮膚病変分類では、InceptionResNetV2やResNet50のようなDLモデルのアンサンブルが優れ、最大90.44%、バイナリとマルチの93.62%の精度が達成された。
論文 参考訳(メタデータ) (2025-02-26T16:05:08Z) - MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention [1.2277343096128712]
本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。
提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
論文 参考訳(メタデータ) (2025-01-07T14:49:12Z) - Merlin: A Vision Language Foundation Model for 3D Computed Tomography [23.553846980246302]
アメリカでは毎年8500万以上のCTスキャンが行われており、そのうち約4分の1が腹部に焦点を当てている。
複雑な画像研究の解釈の負担を軽減するために、人工知能を使うことには大きな意味がある。
我々はMerlinについて紹介する。この3D VLMは、ペアCTスキャン、EHR診断コード、放射線診断レポートを用いて訓練する。
論文 参考訳(メタデータ) (2024-06-10T17:53:01Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Self-distilled Masked Attention guided masked image modeling with noise Regularized Teacher (SMART) for medical image analysis [6.712251433139412]
注意誘導型マスク画像モデリング(MIM)を用いた事前学習型視覚変換器(ViT)は、自然画像解析において下流の精度を向上することを示した。
我々は,MIMの選択的マスキングを誘導するために,雑音の多い運動量更新教師を組み合わせた共蒸留スウィントランスを開発した。
論文 参考訳(メタデータ) (2023-10-02T13:53:55Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。