論文の概要: MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2510.22803v1
- Date: Sun, 26 Oct 2025 19:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.370616
- Title: MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering
- Title(参考訳): MedXplain-VQA:多成分説明可能な医用ビジュアル質問応答
- Authors: Hai-Dang Nguyen, Minh-Anh Dang, Minh-Tan Le, Minh-Tuan Le,
- Abstract要約: MedXplain-VQAは、5つの説明可能なAIコンポーネントを統合し、解釈可能な医療画像分析を提供する包括的フレームワークである。
このフレームワークは、細調整されたBLIP-2バックボーン、医療クエリの修正、Grad-CAMの注意の強化、正確な領域抽出、マルチモーダル言語モデルによる構造的連鎖推論を活用する。
- 参考スコア(独自算出の注目度): 1.4413073343064953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainability is critical for the clinical adoption of medical visual question answering (VQA) systems, as physicians require transparent reasoning to trust AI-generated diagnoses. We present MedXplain-VQA, a comprehensive framework integrating five explainable AI components to deliver interpretable medical image analysis. The framework leverages a fine-tuned BLIP-2 backbone, medical query reformulation, enhanced Grad-CAM attention, precise region extraction, and structured chain-of-thought reasoning via multi-modal language models. To evaluate the system, we introduce a medical-domain-specific framework replacing traditional NLP metrics with clinically relevant assessments, including terminology coverage, clinical structure quality, and attention region relevance. Experiments on 500 PathVQA histopathology samples demonstrate substantial improvements, with the enhanced system achieving a composite score of 0.683 compared to 0.378 for baseline methods, while maintaining high reasoning confidence (0.890). Our system identifies 3-5 diagnostically relevant regions per sample and generates structured explanations averaging 57 words with appropriate clinical terminology. Ablation studies reveal that query reformulation provides the most significant initial improvement, while chain-of-thought reasoning enables systematic diagnostic processes. These findings underscore the potential of MedXplain-VQA as a robust, explainable medical VQA system. Future work will focus on validation with medical experts and large-scale clinical datasets to ensure clinical readiness.
- Abstract(参考訳): 説明責任は、医師がAI生成診断を信頼するために透明な推論を必要とするため、医療的視覚的質問応答(VQA)システムの臨床導入に不可欠である。
MedXplain-VQAは、5つの説明可能なAIコンポーネントを統合し、解釈可能な医療画像分析を提供する包括的フレームワークである。
このフレームワークは、細調整されたBLIP-2バックボーン、医療クエリの修正、Grad-CAMの注意の強化、正確な領域抽出、マルチモーダル言語モデルによる構造的連鎖推論を活用する。
本システムを評価するために,従来のNLP指標を,用語のカバレッジ,臨床構造品質,注意領域の関連性など,臨床的に関連性のある評価に置き換える医療ドメイン特化フレームワークを提案する。
また,500PathVQAの病理組織学的検査では,ベースライン法では0.378に比較して0.683に向上し,高い推論信頼性(0.890)を維持した。
本システムでは,1サンプルあたりの診断関連領域を3~5つ同定し,適切な臨床用語で57語を平均化する構造的説明を生成する。
アブレーション研究は、クエリ再構成が最も顕著な初期改善を提供するのに対し、チェーンオブ思考推論は体系的な診断プロセスを可能にすることを明らかにしている。
これらの結果は,MedXplain-VQAが堅牢で説明可能な医用VQAシステムとしての可能性を示している。
今後は、医療専門家や大規模臨床データセットとの検証に焦点が当てられ、臨床の準備が整う。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Integrating clinical reasoning into large language model-based diagnosis through etiology-aware attention steering [7.092919468004549]
LLM(Large Language Models)は、医学的テキスト理解と生成において重要な機能を示す。
本研究の目的は,LSMの診断精度と臨床推論能力を高めることである。
論文 参考訳(メタデータ) (2025-08-01T03:05:43Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Architecting Clinical Collaboration: Multi-Agent Reasoning Systems for Multimodal Medical VQA [1.2744523252873352]
遠隔医療による皮膚科医療は、しばしば個人訪問の豊かな文脈を欠いている。
本研究は,6つの構成にまたがる医用視覚質問応答の視覚言語モデルについて検討した。
論文 参考訳(メタデータ) (2025-07-07T22:31:56Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow [14.478357882578234]
現代医学では、臨床診断は主にテキストおよび視覚データの包括的分析に依存している。
大規模視覚言語モデル(VLM)およびエージェントベース手法の最近の進歩は、医学的診断に大きな可能性を秘めている。
現代医学における診断原理に従う新しいエージェント推論パラダイムであるMedAgent-Proを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:04:18Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。