Fugu-MT 論文翻訳(概要): Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering

論文の概要: Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering

arxiv url: http://arxiv.org/abs/2404.16192v1
Date: Wed, 24 Apr 2024 20:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 15:27:26.460404
Title: Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering
Title（参考訳）: 医用視覚質問応答のためのドメイン適応視覚と言語モデルの融合
Authors: Cuong Nhat Ha, Shima Asaadi, Sanjeev Kumar Karn, Oladimeji Farri, Tobias Heimann, Thomas Runkler,
Abstract要約: 医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。提案モデルでは,SLAKE 1.0 の医療用 VQA データセット上での最先端性能を87.5% の精度で達成している。
参考スコア（独自算出の注目度）: 4.283761158899643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models, while effective in general domains and showing strong performance in diverse multi-modal applications like visual question-answering (VQA), struggle to maintain the same level of effectiveness in more specialized domains, e.g., medical. We propose a medical vision-language model that integrates large vision and language models adapted for the medical domain. This model goes through three stages of parameter-efficient training using three separate biomedical and radiology multi-modal visual and text datasets. The proposed model achieves state-of-the-art performance on the SLAKE 1.0 medical VQA (MedVQA) dataset with an overall accuracy of 87.5% and demonstrates strong performance on another MedVQA dataset, VQA-RAD, achieving an overall accuracy of 73.2%.
Abstract（参考訳）: 視覚言語モデルは、一般的なドメインで有効であり、視覚質問応答(VQA)のような多様なマルチモーダルアプリケーションで強い性能を示すが、より専門的なドメイン、例えば医療において同じレベルの効果を維持するのに苦労する。医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。このモデルは、3つの異なるバイオメディカル・ラジオロジー・マルチモーダル・ビジュアル・テキスト・データセットを用いてパラメータ効率のトレーニングを行う。提案モデルはSLAKE 1.0の医療用VQA(MedVQA)データセットで87.5%の精度で最先端のパフォーマンスを達成し、他のMedVQAデータセットであるVQA-RADでは73.2%の精度で高い性能を示す。

関連論文リスト

How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文参考訳（メタデータ） (2025-07-15T11:12:39Z)
MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
A Lightweight Large Vision-language Model for Multimodal Medical Images [0.06990493129893112]
VQA(Messical Visual Question Answering)は、医療画像の解釈と臨床質問への回答を可能にすることで、臨床的意思決定を強化する。画像特徴抽出のためのBiomedCLIPとテキスト処理のためのLLaMA-3を統合した軽量マルチモーダルVQAモデルを提案する。本結果は,オープンエンドの質問に対して73.4%の精度を示し,既存のモデルを超え,現実の医療応用の可能性を検証するものである。
論文参考訳（メタデータ） (2025-04-08T00:19:48Z)
Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations [15.052986179046076]
医用エンティティ抽出,視覚的プロンプト生成,およびデータセット適応を統合した,視覚的プロンプトによる微調整のための先駆的フレームワークであるMedVPを紹介する。我々は、複数の医療用VQAデータセットにおいて、最新の最先端の大規模モデルを上回る結果を得た。
論文参考訳（メタデータ） (2025-01-04T21:23:36Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文参考訳（メタデータ） (2024-10-31T11:07:26Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models and Latent Space Geometry Optimization [10.099650491353026]
本稿では,医療ビジョン言語モデルの事前学習と正規化のための新しい手法を提案する。提案手法は,凍結言語モデルとLatent spAce Geometry Optimization (M-FLAG)を用いた医用視覚言語事前学習と呼ばれ,凍結言語モデルを用いて安定性と効率を訓練する。 5つの公開データセットにわたる大規模な実験により、M-FLAGは既存の医療ビジョン言語による事前トレーニングアプローチよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-07-17T09:38:41Z)
Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2023-07-11T15:00:11Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。