Fugu-MT 論文翻訳(概要): Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain?

論文の概要: Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain?

arxiv url: http://arxiv.org/abs/2112.13906v1
Date: Mon, 27 Dec 2021 21:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-30 14:04:11.546061
Title: Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain?
Title（参考訳）: CLIPは医療領域における視覚的質問応答に一般領域と同じくらい適しているか?
Authors: Sedigheh Eslami, Gerard de Melo, Christoph Meinel
Abstract要約: 本研究は,MedVQA(MedVQA)の課題に対するコントラスト言語-画像事前学習(CLIP)の有効性を評価する。我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端のMAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。
参考スコア（独自算出の注目度）: 38.229972218195336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language--Image Pre-training (CLIP) has shown remarkable success in learning with cross-modal supervision from extensive amounts of image--text pairs collected online. Thus far, the effectiveness of CLIP has been investigated primarily in general-domain multimodal problems. This work evaluates the effectiveness of CLIP for the task of Medical Visual Question Answering (MedVQA). To this end, we present PubMedCLIP, a fine-tuned version of CLIP for the medical domain based on PubMed articles. Our experiments are conducted on two MedVQA benchmark datasets and investigate two MedVQA methods, MEVF (Mixture of Enhanced Visual Features) and QCR (Question answering via Conditional Reasoning). For each of these, we assess the merits of visual representation learning using PubMedCLIP, the original CLIP, and state-of-the-art MAML (Model-Agnostic Meta-Learning) networks pre-trained only on visual data. We open source the code for our MedVQA pipeline and pre-training PubMedCLIP. CLIP and PubMedCLIP achieve improvements in comparison to MAML's visual encoder. PubMedCLIP achieves the best results with gains in the overall accuracy of up to 3%. Individual examples illustrate the strengths of PubMedCLIP in comparison to the previously widely used MAML networks. Visual representation learning with language supervision in PubMedCLIP leads to noticeable improvements for MedVQA. Our experiments reveal distributional differences in the two MedVQA benchmark datasets that have not been imparted in previous work and cause different back-end visual encoders in PubMedCLIP to exhibit different behavior on these datasets. Moreover, we witness fundamental performance differences of VQA in general versus medical domains.
Abstract（参考訳）: コントラスト言語-画像事前学習(CLIP)は、大量の画像テキストペアをオンラインで収集し、モダクティブな相互監督による学習において顕著な成功を収めた。これまでのところ、CLIPの有効性は、主に汎用マルチモーダル問題において研究されている。本研究は,MedVQA(MedVQA)の課題に対するCLIPの有効性を評価する。この目的のために, PubMedCLIPは, PubMedの記事に基づく医療領域用CLIPの微調整版である。我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端MAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。 MedVQAパイプラインのコードをオープンソース化し、PubMedCLIPを事前トレーニングしています。 CLIPとPubMedCLIPは、MAMLのビジュアルエンコーダと比較して改善されている。 pubmedclipは、全体の精度を最大3%向上させることで、最高の結果を得る。個々の例は、これまで広く使われていたMAMLネットワークと比較してPubMedCLIPの強みを示している。 PubMedCLIPにおける視覚表現学習は、MedVQAに顕著な改善をもたらす。実験により,従来の研究で提供されていない2つのMedVQAベンチマークデータセットの分布差が明らかになり,PubMedCLIPの異なるバックエンドビジュアルエンコーダがこれらのデータセットに異なる振る舞いを示す。さらに,VQAの医療領域と医療領域の基本的な性能差を観察した。

関連論文リスト

ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識適応機構を確立するために設計されたクロスモーダル臨床知識ディストラクタ(ClinKD)。 ClinKDは、微細なマルチタスクQAペアを含む挑戦的な医療ベンチマークであるMed-GRIT-270kデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-09T15:08:10Z)
UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。 UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文参考訳（メタデータ） (2024-12-13T18:59:40Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
本稿では,MMCLIP(Masked Medical Contrastive Language- Image Pre-Training)フレームワークを提案する。まず、注意マッピング画像モデリング(AttMIM)とエンティティ駆動マスキング言語モデリングモジュール(EntMLM)を紹介する。第2に、MMCLIPは、病原性プロンプトを導入してマルチモーダル学習を強化するために、不適切なデータを大まかに活用する。
論文参考訳（メタデータ） (2024-07-28T17:38:21Z)
FedMedICL: Towards Holistic Evaluation of Distribution Shifts in Federated Medical Imaging [68.6715007665896]
FedMedICLは統合されたフレームワークであり、フェデレートされた医療画像の課題を全体評価するためのベンチマークである。 6種類の医用画像データセットについて,いくつかの一般的な手法を総合的に評価した。単純なバッチ分散手法はFedMedICL実験全体の平均性能において,高度な手法を超越していることがわかった。
論文参考訳（メタデータ） (2024-07-11T19:12:23Z)
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-27T15:50:41Z)
MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文参考訳（メタデータ） (2024-03-07T16:11:43Z)
CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。 CLIPの使用は、最近医療画像領域への関心が高まっている。
論文参考訳（メタデータ） (2023-12-12T15:21:57Z)
Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2023-07-11T15:00:11Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents [35.64805788623848]
PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。 PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。 PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
論文参考訳（メタデータ） (2023-03-13T16:13:16Z)
Understanding the Tricks of Deep Learning in Medical Image Segmentation: Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文参考訳（メタデータ） (2022-09-21T12:30:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。