論文の概要: Does CLIP Benefit Visual Question Answering in the Medical Domain as
Much as it Does in the General Domain?
- arxiv url: http://arxiv.org/abs/2112.13906v1
- Date: Mon, 27 Dec 2021 21:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:04:11.546061
- Title: Does CLIP Benefit Visual Question Answering in the Medical Domain as
Much as it Does in the General Domain?
- Title(参考訳): CLIPは医療領域における視覚的質問応答に一般領域と同じくらい適しているか?
- Authors: Sedigheh Eslami, Gerard de Melo, Christoph Meinel
- Abstract要約: 本研究は,MedVQA(MedVQA)の課題に対するコントラスト言語-画像事前学習(CLIP)の有効性を評価する。
我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。
それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端のMAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。
- 参考スコア(独自算出の注目度): 38.229972218195336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language--Image Pre-training (CLIP) has shown remarkable success
in learning with cross-modal supervision from extensive amounts of image--text
pairs collected online. Thus far, the effectiveness of CLIP has been
investigated primarily in general-domain multimodal problems. This work
evaluates the effectiveness of CLIP for the task of Medical Visual Question
Answering (MedVQA). To this end, we present PubMedCLIP, a fine-tuned version of
CLIP for the medical domain based on PubMed articles. Our experiments are
conducted on two MedVQA benchmark datasets and investigate two MedVQA methods,
MEVF (Mixture of Enhanced Visual Features) and QCR (Question answering via
Conditional Reasoning). For each of these, we assess the merits of visual
representation learning using PubMedCLIP, the original CLIP, and
state-of-the-art MAML (Model-Agnostic Meta-Learning) networks pre-trained only
on visual data. We open source the code for our MedVQA pipeline and
pre-training PubMedCLIP. CLIP and PubMedCLIP achieve improvements in comparison
to MAML's visual encoder. PubMedCLIP achieves the best results with gains in
the overall accuracy of up to 3%. Individual examples illustrate the strengths
of PubMedCLIP in comparison to the previously widely used MAML networks. Visual
representation learning with language supervision in PubMedCLIP leads to
noticeable improvements for MedVQA. Our experiments reveal distributional
differences in the two MedVQA benchmark datasets that have not been imparted in
previous work and cause different back-end visual encoders in PubMedCLIP to
exhibit different behavior on these datasets. Moreover, we witness fundamental
performance differences of VQA in general versus medical domains.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は、大量の画像テキストペアをオンラインで収集し、モダクティブな相互監督による学習において顕著な成功を収めた。
これまでのところ、CLIPの有効性は、主に汎用マルチモーダル問題において研究されている。
本研究は,MedVQA(MedVQA)の課題に対するCLIPの有効性を評価する。
この目的のために, PubMedCLIPは, PubMedの記事に基づく医療領域用CLIPの微調整版である。
我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。
それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端MAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。
MedVQAパイプラインのコードをオープンソース化し、PubMedCLIPを事前トレーニングしています。
CLIPとPubMedCLIPは、MAMLのビジュアルエンコーダと比較して改善されている。
pubmedclipは、全体の精度を最大3%向上させることで、最高の結果を得る。
個々の例は、これまで広く使われていたMAMLネットワークと比較してPubMedCLIPの強みを示している。
PubMedCLIPにおける視覚表現学習は、MedVQAに顕著な改善をもたらす。
実験により,従来の研究で提供されていない2つのMedVQAベンチマークデータセットの分布差が明らかになり,PubMedCLIPの異なるバックエンドビジュアルエンコーダがこれらのデータセットに異なる振る舞いを示す。
さらに,VQAの医療領域と医療領域の基本的な性能差を観察した。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - FedMedICL: Towards Holistic Evaluation of Distribution Shifts in Federated Medical Imaging [68.6715007665896]
FedMedICLは統合されたフレームワークであり、フェデレートされた医療画像の課題を全体評価するためのベンチマークである。
6種類の医用画像データセットについて,いくつかの一般的な手法を総合的に評価した。
単純なバッチ分散手法はFedMedICL実験全体の平均性能において,高度な手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T19:12:23Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical
Documents [35.64805788623848]
PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。
PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。
PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-13T16:13:16Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。