論文の概要: Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2404.16192v1
- Date: Wed, 24 Apr 2024 20:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 15:27:26.460404
- Title: Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering
- Title(参考訳): 医用視覚質問応答のためのドメイン適応視覚と言語モデルの融合
- Authors: Cuong Nhat Ha, Shima Asaadi, Sanjeev Kumar Karn, Oladimeji Farri, Tobias Heimann, Thomas Runkler,
- Abstract要約: 医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。
提案モデルでは,SLAKE 1.0 の医療用 VQA データセット上での最先端性能を87.5% の精度で達成している。
- 参考スコア(独自算出の注目度): 4.283761158899643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models, while effective in general domains and showing strong performance in diverse multi-modal applications like visual question-answering (VQA), struggle to maintain the same level of effectiveness in more specialized domains, e.g., medical. We propose a medical vision-language model that integrates large vision and language models adapted for the medical domain. This model goes through three stages of parameter-efficient training using three separate biomedical and radiology multi-modal visual and text datasets. The proposed model achieves state-of-the-art performance on the SLAKE 1.0 medical VQA (MedVQA) dataset with an overall accuracy of 87.5% and demonstrates strong performance on another MedVQA dataset, VQA-RAD, achieving an overall accuracy of 73.2%.
- Abstract(参考訳): 視覚言語モデルは、一般的なドメインで有効であり、視覚質問応答(VQA)のような多様なマルチモーダルアプリケーションで強い性能を示すが、より専門的なドメイン、例えば医療において同じレベルの効果を維持するのに苦労する。
医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。
このモデルは、3つの異なるバイオメディカル・ラジオロジー・マルチモーダル・ビジュアル・テキスト・データセットを用いてパラメータ効率のトレーニングを行う。
提案モデルはSLAKE 1.0の医療用VQA(MedVQA)データセットで87.5%の精度で最先端のパフォーマンスを達成し、他のMedVQAデータセットであるVQA-RADでは73.2%の精度で高い性能を示す。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。
これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。
しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文 参考訳(メタデータ) (2024-10-31T11:07:26Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models
and Latent Space Geometry Optimization [10.099650491353026]
本稿では,医療ビジョン言語モデルの事前学習と正規化のための新しい手法を提案する。
提案手法は,凍結言語モデルとLatent spAce Geometry Optimization (M-FLAG)を用いた医用視覚言語事前学習と呼ばれ,凍結言語モデルを用いて安定性と効率を訓練する。
5つの公開データセットにわたる大規模な実験により、M-FLAGは既存の医療ビジョン言語による事前トレーニングアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T09:38:41Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。