論文の概要: More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM era
- arxiv url: http://arxiv.org/abs/2509.13175v1
- Date: Tue, 16 Sep 2025 15:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.149379
- Title: More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM era
- Title(参考訳): より高性能でスケーラブルな:LLM時代の放射線学の対照的な視覚言語事前学習を再考する
- Authors: Yingtai Li, Haoran Lai, Xiaoqian Zhou, Shuai Ming, Wenxin Ma, Wei Wei, Shaohua Kevin Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、大規模な教師付き事前訓練を容易にする。
LLMは、放射線診断レポートから診断ラベルを顕著な精度で抽出することができる。
教師付き事前学習は、コントラスト的な視覚言語アライメントを根本的に改善することを示す。
- 参考スコア(独自算出の注目度): 7.5669441185108015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Large Language Models (LLMs) presents unprecedented opportunities to revolutionize medical contrastive vision-language pre-training. In this paper, we show how LLMs can facilitate large-scale supervised pre-training, thereby advancing vision-language alignment. We begin by demonstrate that modern LLMs can automatically extract diagnostic labels from radiology reports with remarkable precision (>96\% AUC in our experiments) without complex prompt engineering, enabling the creation of large-scale "silver-standard" datasets at a minimal cost (~\$3 for 50k CT image-report pairs). Further, we find that vision encoder trained on this "silver-standard" dataset achieves performance comparable to those trained on labels extracted by specialized BERT-based models, thereby democratizing the access to large-scale supervised pre-training. Building on this foundation, we proceed to reveal that supervised pre-training fundamentally improves contrastive vision-language alignment. Our approach achieves state-of-the-art performance using only a 3D ResNet-18 with vanilla CLIP training, including 83.8\% AUC for zero-shot diagnosis on CT-RATE, 77.3\% AUC on RAD-ChestCT, and substantial improvements in cross-modal retrieval (MAP@50=53.7\% for image-image, Recall@100=52.2\% for report-image). These results demonstrate the potential of utilizing LLMs to facilitate {\bf more performant and scalable} medical AI systems. Our code is avaiable at https://github.com/SadVoxel/More-performant-and-scalable.
- Abstract(参考訳): LLM(Large Language Models)の出現は、医学的な対照的なビジョン言語事前訓練に革命をもたらす前例のない機会である。
本稿では,LLMが大規模教師付き事前学習をどのように促進し,視覚言語によるアライメントを促進するかを示す。
まず、最近のLCMは、複雑なプロンプトエンジニアリングを伴わずに、顕著な精度 (>96\% AUC) のラジオロジーレポートから診断ラベルを自動的に抽出し、最小コストで大規模な「銀標準」データセットを作成できる(50kCT画像レポート対で3ドル)。
さらに、この「銀標準」データセットに基づいてトレーニングされたビジョンエンコーダは、特定BERTモデルによって抽出されたラベルでトレーニングされたものと比較して、パフォーマンスを達成し、大規模な教師付き事前学習へのアクセスを民主化する。
この基礎の上に構築され、教師付き事前学習が対照的な視覚言語アライメントを根本的に改善することを明らかにする。
本手法は,CT-RATEのゼロショット診断では83.8 % AUC,RAD-ChestCTでは77.3 % AUC,画像画像ではMAP@50=53.7 %,レポート画像ではRecall@100=52.2 %)を含む,バニラCLIPトレーニング付き3D ResNet-18のみを用いて最先端のパフォーマンスを実現する。
これらの結果は、LLMを活用して、より高性能でスケーラブルな医療AIシステムを実現する可能性を示している。
私たちのコードはhttps://github.com/SadVoxel/More-performant-and-scalableで利用可能です。
関連論文リスト
- Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。
我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。
モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2025-02-18T15:30:48Z) - An OpenMind for 3D medical vision self-supervised learning [1.1223322894276315]
我々は114kの3D脳MRIボリュームからなる公開事前学習データセットを公表した。
我々は、最新のCNNおよびTransformerアーキテクチャのための既存の3次元自己教師型学習手法をこのデータセット上でベンチマークする。
論文 参考訳(メタデータ) (2024-12-22T14:38:28Z) - EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。
画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。