論文の概要: Medical visual question answering using joint self-supervised learning
- arxiv url: http://arxiv.org/abs/2302.13069v1
- Date: Sat, 25 Feb 2023 12:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:06:26.179195
- Title: Medical visual question answering using joint self-supervised learning
- Title(参考訳): 共同学習を用いた医用視覚質問応答
- Authors: Yuan Zhou, Jing Mei, Yiqin Yu, Tanveer Syeda-Mahmood
- Abstract要約: エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
- 参考スコア(独自算出の注目度): 8.817054025763325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) becomes one of the most active research
problems in the medical imaging domain. A well-known VQA challenge is the
intrinsic diversity between the image and text modalities, and in the medical
VQA task, there is another critical problem relying on the limited size of
labelled image-question-answer data. In this study we propose an
encoder-decoder framework that leverages the image-text joint representation
learned from large-scaled medical image-caption data and adapted to the
small-sized medical VQA task. The encoder embeds across the image-text dual
modalities with self-attention mechanism and is independently pre-trained on
the large-scaled medical image-caption dataset by multiple self-supervised
learning tasks. Then the decoder is connected to the top of the encoder and
fine-tuned using the small-sized medical VQA dataset. The experiment results
present that our proposed method achieves better performance comparing with the
baseline and SOTA methods.
- Abstract(参考訳): VQA(Visual Question Answering)は、医用画像領域において最も活発な研究課題の一つである。
有名なVQA課題は、画像とテキストのモダリティの固有の多様性であり、医療用VQAタスクでは、ラベル付き画像問合せデータの限られたサイズに依存する別の重要な問題がある。
本研究では,大規模医用画像キャプチャデータから得られた画像-テキスト共同表現を活用し,小型医用VQAタスクに適応するエンコーダ・デコーダフレームワークを提案する。
エンコーダは、画像-テキスト二重モードに自己照準機構を組み込むとともに、複数の自己教師付き学習タスクにより、大規模医用画像キャプチャデータセットに個別に事前学習される。
その後、デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
実験の結果,提案手法はベースライン法やSOTA法と比較して性能がよいことがわかった。
関連論文リスト
- MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - Interpretable Medical Image Visual Question Answering via Multi-Modal
Relationship Graph Learning [45.746882253686856]
医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関係のある質問に答えることを目的としている。
まず,胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。
このデータセットに基づいて、3つの異なる関係グラフを構築することによって,新たなベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:46:16Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。