論文の概要: MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale
- arxiv url: http://arxiv.org/abs/2404.12372v1
- Date: Thu, 18 Apr 2024 17:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 11:52:23.142483
- Title: MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale
- Title(参考訳): MedThink:マルチモーダル・デシジョン・メイキング・ライナーによる医用視覚質問応答の解説
- Authors: Xiaotang Gai, Chenyi Zhou, Jiaxiang Liu, Yang Feng, Jian Wu, Zuozhu Liu,
- Abstract要約: 我々は、データ準備を効率化し、新しいベンチマークMedVQAデータセットを構築するための半自動アノテーションプロセスを開発した。
R-RADとR-SLAKEのデータセットは、中間的な医学的意思決定の根拠を提供する。
R-RADでは83.5%、R-SLAKEでは86.3%の精度が得られ、既存の最先端のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 19.94415334436024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (MedVQA), which offers language responses to image-based medical inquiries, represents a challenging task and significant advancement in healthcare. It assists medical experts to swiftly interpret medical images, thereby enabling faster and more accurate diagnoses. However, the model interpretability and transparency of existing MedVQA solutions are often limited, posing challenges in understanding their decision-making processes. To address this issue, we devise a semi-automated annotation process to streamlining data preparation and build new benchmark MedVQA datasets R-RAD and R-SLAKE. The R-RAD and R-SLAKE datasets provide intermediate medical decision-making rationales generated by multimodal large language models and human annotations for question-answering pairs in existing MedVQA datasets, i.e., VQA-RAD and SLAKE. Moreover, we design a novel framework which finetunes lightweight pretrained generative models by incorporating medical decision-making rationales into the training process. The framework includes three distinct strategies to generate decision outcomes and corresponding rationales, thereby clearly showcasing the medical decision-making process during reasoning. Extensive experiments demonstrate that our method can achieve an accuracy of 83.5% on R-RAD and 86.3% on R-SLAKE, significantly outperforming existing state-of-the-art baselines. Dataset and code will be released.
- Abstract(参考訳): 画像に基づく医療質問に対する言語応答を提供するMedVQA(MedVQA)は、難しい課題であり、医療の進歩を示している。
医療専門家が医療画像の迅速な解釈を支援し、より高速で正確な診断を可能にする。
しかしながら、既存のMedVQAソリューションのモデル解釈可能性と透明性はしばしば制限されており、意思決定プロセスを理解する上での課題を提起している。
この問題に対処するために、データ準備の合理化と新しいベンチマークMedVQAデータセット R-RAD と R-SLAKE を構築するための半自動アノテーションプロセスを開発した。
R-RADとR-SLAKEデータセットは、既存のMedVQAデータセット、すなわちVQA-RADとSLAKEにおいて、マルチモーダルな大規模言語モデルと人間のアノテーションによって生成される中間的な医学的意思決定論理を提供する。
さらに,医学的意思決定の合理性をトレーニングプロセスに組み込むことにより,軽量な事前学習生成モデルを微調整する新しい枠組みを設計する。
このフレームワークには、意思決定結果とそれに対応する合理的性を生成するための3つの異なる戦略が含まれており、推論中の医療的な意思決定プロセスを明確に示している。
実験の結果,R-RADでは83.5%,R-SLAKEでは86.3%の精度が得られた。
データセットとコードがリリースされる。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English
Clinical Queries [16.101969130235055]
本稿では,Multimodal Medical Codemixed Question Summarization MMCQSデータセットを紹介する。
このデータセットは、ヒンディー語と英語の混成医療クエリと視覚支援を組み合わせたものだ。
データセット、コード、トレーニング済みのモデルを公開します。
論文 参考訳(メタデータ) (2024-01-03T07:58:25Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - "My nose is running.""Are you also coughing?": Building A Medical
Diagnosis Agent with Interpretable Inquiry Logics [80.55587329326046]
本稿では,DSMDの対話マネージャを実装するための,より解釈可能な意思決定プロセスを提案する。
推論を行うために、非常に透明なコンポーネントを持つモデルを考案する。
実験の結果,診断精度は7.7%,10.0%,3.0%向上した。
論文 参考訳(メタデータ) (2022-04-29T09:02:23Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。