論文の概要: Does CLIP Benefit Visual Question Answering in the Medical Domain as
Much as it Does in the General Domain?
- arxiv url: http://arxiv.org/abs/2112.13906v1
- Date: Mon, 27 Dec 2021 21:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:04:11.546061
- Title: Does CLIP Benefit Visual Question Answering in the Medical Domain as
Much as it Does in the General Domain?
- Title(参考訳): CLIPは医療領域における視覚的質問応答に一般領域と同じくらい適しているか?
- Authors: Sedigheh Eslami, Gerard de Melo, Christoph Meinel
- Abstract要約: 本研究は,MedVQA(MedVQA)の課題に対するコントラスト言語-画像事前学習(CLIP)の有効性を評価する。
我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。
それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端のMAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。
- 参考スコア(独自算出の注目度): 38.229972218195336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language--Image Pre-training (CLIP) has shown remarkable success
in learning with cross-modal supervision from extensive amounts of image--text
pairs collected online. Thus far, the effectiveness of CLIP has been
investigated primarily in general-domain multimodal problems. This work
evaluates the effectiveness of CLIP for the task of Medical Visual Question
Answering (MedVQA). To this end, we present PubMedCLIP, a fine-tuned version of
CLIP for the medical domain based on PubMed articles. Our experiments are
conducted on two MedVQA benchmark datasets and investigate two MedVQA methods,
MEVF (Mixture of Enhanced Visual Features) and QCR (Question answering via
Conditional Reasoning). For each of these, we assess the merits of visual
representation learning using PubMedCLIP, the original CLIP, and
state-of-the-art MAML (Model-Agnostic Meta-Learning) networks pre-trained only
on visual data. We open source the code for our MedVQA pipeline and
pre-training PubMedCLIP. CLIP and PubMedCLIP achieve improvements in comparison
to MAML's visual encoder. PubMedCLIP achieves the best results with gains in
the overall accuracy of up to 3%. Individual examples illustrate the strengths
of PubMedCLIP in comparison to the previously widely used MAML networks. Visual
representation learning with language supervision in PubMedCLIP leads to
noticeable improvements for MedVQA. Our experiments reveal distributional
differences in the two MedVQA benchmark datasets that have not been imparted in
previous work and cause different back-end visual encoders in PubMedCLIP to
exhibit different behavior on these datasets. Moreover, we witness fundamental
performance differences of VQA in general versus medical domains.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は、大量の画像テキストペアをオンラインで収集し、モダクティブな相互監督による学習において顕著な成功を収めた。
これまでのところ、CLIPの有効性は、主に汎用マルチモーダル問題において研究されている。
本研究は,MedVQA(MedVQA)の課題に対するCLIPの有効性を評価する。
この目的のために, PubMedCLIPは, PubMedの記事に基づく医療領域用CLIPの微調整版である。
我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。
それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端MAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。
MedVQAパイプラインのコードをオープンソース化し、PubMedCLIPを事前トレーニングしています。
CLIPとPubMedCLIPは、MAMLのビジュアルエンコーダと比較して改善されている。
pubmedclipは、全体の精度を最大3%向上させることで、最高の結果を得る。
個々の例は、これまで広く使われていたMAMLネットワークと比較してPubMedCLIPの強みを示している。
PubMedCLIPにおける視覚表現学習は、MedVQAに顕著な改善をもたらす。
実験により,従来の研究で提供されていない2つのMedVQAベンチマークデータセットの分布差が明らかになり,PubMedCLIPの異なるバックエンドビジュアルエンコーダがこれらのデータセットに異なる振る舞いを示す。
さらに,VQAの医療領域と医療領域の基本的な性能差を観察した。
関連論文リスト
- MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training
with Masked Autoencoder [28.17601348122799]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデル能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - CLIP in Medical Imaging: A Comprehensive Survey [54.37291512559861]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical
Documents [35.64805788623848]
PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。
PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。
PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-13T16:13:16Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。