Fugu-MT 論文翻訳(概要): LaPA: Latent Prompt Assist Model For Medical Visual Question Answering

論文の概要: LaPA: Latent Prompt Assist Model For Medical Visual Question Answering

arxiv url: http://arxiv.org/abs/2404.13039v1
Date: Fri, 19 Apr 2024 17:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 14:16:48.949298
Title: LaPA: Latent Prompt Assist Model For Medical Visual Question Answering
Title（参考訳）: LaPA: 医用ビジュアル質問応答のための潜伏型プロンプトアシストモデル
Authors: Tiancheng Gu, Kaicheng Yang, Dongnan Liu, Weidong Cai,
Abstract要約: 医学的視覚的質問応答(Med-VQA)は、医療画像や質問に対する正しい回答の予測を自動化することを目的としている。医用視覚質問応答のための潜時プロンプトアシストモデル(LaPA)を提案する。公開されている3つのMed-VQAデータセットの実験結果は、LaPAが最先端のARLより優れていることを示している。
参考スコア（独自算出の注目度）: 12.857747609666507
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical visual question answering (Med-VQA) aims to automate the prediction of correct answers for medical images and questions, thereby assisting physicians in reducing repetitive tasks and alleviating their workload. Existing approaches primarily focus on pre-training models using additional and comprehensive datasets, followed by fine-tuning to enhance performance in downstream tasks. However, there is also significant value in exploring existing models to extract clinically relevant information. In this paper, we propose the Latent Prompt Assist model (LaPA) for medical visual question answering. Firstly, we design a latent prompt generation module to generate the latent prompt with the constraint of the target answer. Subsequently, we propose a multi-modal fusion block with latent prompt fusion module that utilizes the latent prompt to extract clinical-relevant information from uni-modal and multi-modal features. Additionally, we introduce a prior knowledge fusion module to integrate the relationship between diseases and organs with the clinical-relevant information. Finally, we combine the final integrated information with image-language cross-modal information to predict the final answers. Experimental results on three publicly available Med-VQA datasets demonstrate that LaPA outperforms the state-of-the-art model ARL, achieving improvements of 1.83%, 0.63%, and 1.80% on VQA-RAD, SLAKE, and VQA-2019, respectively. The code is publicly available at https://github.com/GaryGuTC/LaPA_model.
Abstract（参考訳）: 医学的視覚的質問応答(Med-VQA)は、医療画像や質問に対する正しい回答の予測を自動化することを目的としており、医師が反復的なタスクを減らし、作業負荷を軽減することを支援する。既存のアプローチは主に、追加および包括的なデータセットを使用した事前トレーニングモデルに重点を置いている。しかし,臨床関連情報を抽出する既存モデルを探索する上でも有意な意味がある。本稿では,医学的視覚的質問応答のための潜時プロンプト支援モデル(LaPA)を提案する。まず,対象解の制約付き潜時プロンプトを生成するために潜時プロンプト生成モジュールを設計する。次に, 潜伏プロンプトを用いた多モーダル核融合ブロックを提案し, 単モーダルおよび多モーダルの特徴から臨床関連情報を抽出する。さらに,疾患と臓器の関係を臨床関連情報と統合するための知識融合モジュールも導入した。最後に、最終的な統合情報と画像言語横断情報を組み合わせて、最終的な回答を予測する。公開されている3つのMed-VQAデータセットの実験結果は、LaPAが最先端モデルのARLより優れており、それぞれVQA-RAD、SLAKE、VQA-2019で1.83%、0.63%、および1.80%の改善が達成されていることを示している。コードはhttps://github.com/GaryGuTC/LaPA_modelで公開されている。

関連論文リスト

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy [3.3091869879941687]
Kvasir-VQA-x1は消化管内視鏡(GI)の新しい大規模データセットである。我々は159,549組の新しい質問応答ペアを組み込むことで,元のKvasir-VQAを大幅に拡張した。 Kvasir-VQA-x1は、より困難で臨床的に関係のあるベンチマークを提供することで、より信頼性が高く効果的なマルチモーダルAIシステムの開発を加速することを目指している。
論文参考訳（メタデータ） (2025-06-11T17:31:38Z)
A Lightweight Large Vision-language Model for Multimodal Medical Images [0.06990493129893112]
VQA(Messical Visual Question Answering)は、医療画像の解釈と臨床質問への回答を可能にすることで、臨床的意思決定を強化する。画像特徴抽出のためのBiomedCLIPとテキスト処理のためのLLaMA-3を統合した軽量マルチモーダルVQAモデルを提案する。本結果は,オープンエンドの質問に対して73.4%の精度を示し,既存のモデルを超え,現実の医療応用の可能性を検証するものである。
論文参考訳（メタデータ） (2025-04-08T00:19:48Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
EMERGE: Enhancing Multimodal Electronic Health Records Predictive Modeling with Retrieval-Augmented Generation [22.94521527609479]
EMERGEはRetrieval-Augmented Generation(RAG)駆動のフレームワークであり、マルチモーダルEHR予測モデリングを強化する。時系列データと臨床ノートからエンティティを抽出し,LLM(Large Language Models)を誘導し,プロのPrimeKGと整合させる。抽出した知識は、患者の健康状態のタスク関連サマリーを生成するために使用される。
論文参考訳（メタデータ） (2024-05-27T10:53:15Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-02-05T18:28:44Z)
CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-16T03:02:05Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文参考訳（メタデータ） (2023-07-27T20:36:02Z)
Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2023-07-11T15:00:11Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文参考訳（メタデータ） (2023-03-01T14:21:19Z)
Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-27T13:38:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。