論文の概要: Self-supervised vision-language pretraining for Medical visual question
answering
- arxiv url: http://arxiv.org/abs/2211.13594v1
- Date: Thu, 24 Nov 2022 13:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:59:04.073198
- Title: Self-supervised vision-language pretraining for Medical visual question
answering
- Title(参考訳): 医用視覚質問応答のための自己教師型視覚言語事前学習
- Authors: Pengfei Li, Gang Liu, Lin Tan, Jinying Liao and Shenjun Zhong
- Abstract要約: そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 9.073820229958054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image visual question answering (VQA) is a task to answer clinical
questions, given a radiographic image, which is a challenging problem that
requires a model to integrate both vision and language information. To solve
medical VQA problems with a limited number of training data, pretrain-finetune
paradigm is widely used to improve the model generalization. In this paper, we
propose a self-supervised method that applies Masked image modeling, Masked
language modeling, Image text matching and Image text alignment via contrastive
learning (M2I2) for pretraining on medical image caption dataset, and finetunes
to downstream medical VQA tasks. The proposed method achieves state-of-the-art
performance on all the three public medical VQA datasets. Our codes and models
are available at https://github.com/pengfeiliHEU/M2I2.
- Abstract(参考訳): 医用画像視覚質問応答(VQA)は、放射線画像が与えられた場合、臨床的な疑問に答えるタスクであり、視覚情報と言語情報の両方を統合するモデルを必要とする難しい問題である。
限られたトレーニングデータで医療用VQA問題を解決するために、モデル一般化を改善するためにプレトレイン・ファインチューン・パラダイムが広く用いられている。
本稿では, 医用画像キャプションデータセットの事前トレーニングを行うために, マスケ画像モデリング, マスケ言語モデリング, 画像テキストマッチング, コントラスト学習による画像テキストアライメント(M2I2), 下流医療用VQAタスクにファインタインを適用する自己教師方式を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して最先端の性能を実現する。
私たちのコードとモデルはhttps://github.com/pengfeiliheu/m2i2で利用可能です。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Localized Questions in Medical Visual Question Answering [2.005299372367689]
VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。
既存の医療用VQAモデルは、画像全体を参照する質問に答えることに重点を置いている。
本稿では、画像領域に関する疑問に答えられるモデルを開発することにより、この限界に対処する医療用VQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:47:18Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。