論文の概要: Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime
- arxiv url: http://arxiv.org/abs/2303.17644v1
- Date: Thu, 30 Mar 2023 18:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:13:30.551558
- Title: Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime
- Title(参考訳): 放射線画像のための視覚言語モデリングと低データ領域での報告
- Authors: Rhydian Windsor, Amir Jamaludin, Timor Kadir, Andrew Zisserman
- Abstract要約: 本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
- 参考スコア(独自算出の注目度): 70.04389979779195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores training medical vision-language models (VLMs) -- where
the visual and language inputs are embedded into a common space -- with a
particular focus on scenarios where training data is limited, as is often the
case in clinical datasets. We explore several candidate methods to improve
low-data performance, including: (i) adapting generic pre-trained models to
novel image and text domains (i.e. medical imaging and reports) via unimodal
self-supervision; (ii) using local (e.g. GLoRIA) & global (e.g. InfoNCE)
contrastive loss functions as well as a combination of the two; (iii) extra
supervision during VLM training, via: (a) image- and text-only
self-supervision, and (b) creating additional positive image-text pairs for
training through augmentation and nearest-neighbour search.
Using text-to-image retrieval as a benchmark, we evaluate the performance of
these methods with variable sized training datasets of paired chest X-rays and
radiological reports. Combined, they significantly improve retrieval compared
to fine-tuning CLIP, roughly equivalent to training with the data. A similar
pattern is found in the downstream task classification of CXR-related
conditions with our method outperforming CLIP and also BioVIL, a strong CXR VLM
benchmark, in the zero-shot and linear probing settings. We conclude with a set
of recommendations for researchers aiming to train vision-language models on
other medical imaging modalities when training data is scarce. To facilitate
further research, we will make our code and models publicly available.
- Abstract(参考訳): 本稿では、医用視覚言語モデル(VLM)のトレーニングについて、視覚的および言語的入力が共通の空間に埋め込まれている点について考察する。
我々は、下記を含む、低データパフォーマンスを改善する候補メソッドをいくつか検討する。
(i)ユニモーダル・セルフ・スーパービジョンによる新しい画像及びテキスト領域(医用画像及びレポート)へのジェネリック事前学習モデルの適用
(ii) ローカル(GLoRIAなど)とグローバル(InfoNCEなど)のコントラスト損失関数と2つの組み合わせを使用すること。
(iii)vlm訓練中の追加監督
(a)画像及びテキストのみの自己スーパービジョン、及び
(b)増補と近距離探索による訓練のためのポジティブな画像テキストペアの作成。
テキストから画像への検索をベンチマークとして評価し,胸部x線撮影とx線撮影の多変量トレーニングデータセットを用いて評価を行った。
組み合わせることで、データのトレーニングとほぼ同等の微調整のCLIPに比べて、検索が大幅に改善される。
CXR 関連条件の下流タスク分類では,CLIP よりも優れたCXR VLM ベンチマークである BioVIL も,ゼロショットおよびリニアプローブ設定では同様のパターンがみられた。
トレーニングデータが少ない場合には、他の医用画像のモダリティに基づいて視覚言語モデルを訓練することを目的とした研究者のための一連の勧告で締めくくる。
さらなる研究を容易にするため、コードとモデルを公開します。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。