論文の概要: RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training
- arxiv url: http://arxiv.org/abs/2303.00534v1
- Date: Wed, 1 Mar 2023 14:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:30:09.468917
- Title: RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training
- Title(参考訳): RAMM:マルチモーダル事前学習による検索型バイオメディカルビジュアル質問応答
- Authors: Zheng Yuan, Qiao Jin, Chuanqi Tan, Zhengyun Zhao, Hongyi Yuan, Fei
Huang, Songfang Huang
- Abstract要約: ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
- 参考スコア(独自算出の注目度): 45.38823400370285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language multi-modal pretraining and fine-tuning have shown great
success in visual question answering (VQA). Compared to general domain VQA, the
performance of biomedical VQA suffers from limited data. In this paper, we
propose a retrieval-augmented pretrain-and-finetune paradigm named RAMM for
biomedical VQA to overcome the data limitation issue. Specifically, we collect
a new biomedical dataset named PMCPM which offers patient-based image-text
pairs containing diverse patient situations from PubMed. Then, we pretrain the
biomedical multi-modal model to learn visual and textual representation for
image-text pairs and align these representations with image-text contrastive
objective (ITC). Finally, we propose a retrieval-augmented method to better use
the limited data. We propose to retrieve similar image-text pairs based on ITC
from pretraining datasets and introduce a novel retrieval-attention module to
fuse the representation of the image and the question with the retrieved images
and texts. Experiments demonstrate that our retrieval-augmented
pretrain-and-finetune paradigm obtains state-of-the-art performance on
Med-VQA2019, Med-VQA2021, VQARAD, and SLAKE datasets. Further analysis shows
that the proposed RAMM and PMCPM can enhance biomedical VQA performance
compared with previous resources and methods. We will open-source our dataset,
codes, and pretrained model.
- Abstract(参考訳): 視覚と言語によるマルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めている。
一般的なドメインVQAと比較して、バイオメディカルVQAの性能は限られたデータに悩まされている。
本稿では、バイオメディカルVQAのためのRAMMという、データ制限問題を克服するための検索強化プレトレイン/ファインチューンパラダイムを提案する。
具体的には, PubMed の多様な患者状況を含む患者ベースの画像テキストペアを提供する PMCPM という新たなバイオメディカルデータセットを収集する。
次に,バイオメディカルマルチモーダルモデルを用いて,画像テキストペアの視覚的およびテキスト的表現を学習し,これらの表現を画像テキストコントラスト目的(ITC)と整合させる。
最後に,制限データをよりよく活用するための検索拡張手法を提案する。
本稿では,事前学習データセットからitcに基づく類似画像テキストペアを検索し,検索画像と質問の表現と検索画像とテキストとを融合させる新たな検索アテンションモジュールを提案する。
実験により,Med-VQA2019,Med-VQA2021,VQARAD,SLAKEデータセット上での最先端性能が得られた。
さらに分析した結果,提案したRAMMとPMCPMは,従来の資源や手法と比較してバイオメディカルVQA性能を向上させることができた。
私たちはデータセット、コード、事前訓練されたモデルをオープンソースにします。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised vision-language pretraining for Medical visual question
answering [9.073820229958054]
そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T13:31:56Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。