Fugu-MT 論文翻訳(概要): Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights

論文の概要: Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights

arxiv url: http://arxiv.org/abs/2507.08036v2
Date: Mon, 14 Jul 2025 10:06:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 12:29:47.608028
Title: Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights
Title（参考訳）: 医学的視覚的質問応答を放射線治療ワークフローに統合する障壁--スコーピングレビューと臨床医の立場から
Authors: Deepali Mishra, Chaklam Silpasuwanchai, Ashutosh Modi, Madhumita Sushil, Sorayouth Chumnanvej,
Abstract要約: MedVQA (Medicical Visual Question Answering) は、医療画像の解釈を質問応答によって自動化し、放射線科医を支援するための有望なツールである。モデルやデータセットの進歩にもかかわらず、MedVQAの臨床システムへの統合は依然として限られている。本研究は,インドとタイから68の出版物と50人の臨床医を体系的にレビューし,MedVQAの実用性,課題,ギャップについて検討した。
参考スコア（独自算出の注目度）: 6.5907034989882725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical Visual Question Answering (MedVQA) is a promising tool to assist radiologists by automating medical image interpretation through question answering. Despite advances in models and datasets, MedVQA's integration into clinical workflows remains limited. This study systematically reviews 68 publications (2018-2024) and surveys 50 clinicians from India and Thailand to examine MedVQA's practical utility, challenges, and gaps. Following the Arksey and O'Malley scoping review framework, we used a two-pronged approach: (1) reviewing studies to identify key concepts, advancements, and research gaps in radiology workflows, and (2) surveying clinicians to capture their perspectives on MedVQA's clinical relevance. Our review reveals that nearly 60% of QA pairs are non-diagnostic and lack clinical relevance. Most datasets and models do not support multi-view, multi-resolution imaging, EHR integration, or domain knowledge, features essential for clinical diagnosis. Furthermore, there is a clear mismatch between current evaluation metrics and clinical needs. The clinician survey confirms this disconnect: only 29.8% consider MedVQA systems highly useful. Key concerns include the absence of patient history or domain knowledge (87.2%), preference for manually curated datasets (51.1%), and the need for multi-view image support (78.7%). Additionally, 66% favor models focused on specific anatomical regions, and 89.4% prefer dialogue-based interactive systems. While MedVQA shows strong potential, challenges such as limited multimodal analysis, lack of patient context, and misaligned evaluation approaches must be addressed for effective clinical integration.
Abstract（参考訳）: MedVQA (Medicical Visual Question Answering) は、医療画像の解釈を質問応答によって自動化し、放射線科医を支援するための有望なツールである。モデルとデータセットの進歩にもかかわらず、MedVQAの臨床ワークフローへの統合は依然として限られている。本研究は、68の出版物(2018-2024)を体系的にレビューし、インドとタイの50人の臨床医を対象に、MedVQAの実用性、課題、ギャップについて調査する。 Arksey と O'Malley のスコーピング・レビュー・フレームワークに倣って,(1) 放射線学のワークフローにおける重要な概念,進歩,研究ギャップを特定するための研究のレビュー,(2) MedVQA の臨床的意義を捉えた臨床医のアンケート調査,という2つのアプローチを用いた。以上の結果から,QAペアの60%近くが非診断的であり,臨床関連性が欠如していることが判明した。ほとんどのデータセットやモデルは、マルチビュー、マルチレゾリューションイメージング、EHR統合、またはドメイン知識をサポートしておらず、臨床診断に必須である。さらに、現在の評価基準と臨床ニーズとの間には明らかなミスマッチがある。 29.8%しかMedVQAシステムが非常に有用であると考えている。主な懸念点は、患者の歴史やドメイン知識の欠如(87.2%)、手動でキュレートされたデータセット(51.1%)の好み、マルチビューイメージのサポートの必要性(78.7%)である。さらに、66%は特定の解剖学的領域に焦点を当てたモデルを好むが、89.4%は対話ベースの対話システムを好む。 MedVQAは強い可能性を秘めているが, 患者コンテキストの欠如, 評価アプローチの整合性の欠如といった課題は, 効果的な臨床統合のために対処する必要がある。

関連論文リスト

The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency [38.68458713626548]
現在のベンチマークでは、現実の患者のケアに不可欠な統合されたマルチモーダルな推論を捉えられていない。このベンチマークは、臨床推論経路を反映する7つのタスクにわたるモデルを評価する。現在の人工知能モデルは、複雑なマルチモーダル推論にはまだ臨床的に適していない。
論文参考訳（メタデータ） (2025-12-25T03:33:22Z)
Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。 DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-10-28T17:19:47Z)
MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering [1.4413073343064953]
MedXplain-VQAは、5つの説明可能なAIコンポーネントを統合し、解釈可能な医療画像分析を提供する包括的フレームワークである。このフレームワークは、細調整されたBLIP-2バックボーン、医療クエリの修正、Grad-CAMの注意の強化、正確な領域抽出、マルチモーダル言語モデルによる構造的連鎖推論を活用する。
論文参考訳（メタデータ） (2025-10-26T19:23:20Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。 Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文参考訳（メタデータ） (2025-08-29T08:58:39Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
Architecting Clinical Collaboration: Multi-Agent Reasoning Systems for Multimodal Medical VQA [1.2744523252873352]
遠隔医療による皮膚科医療は、しばしば個人訪問の豊かな文脈を欠いている。本研究は,6つの構成にまたがる医用視覚質問応答の視覚言語モデルについて検討した。
論文参考訳（メタデータ） (2025-07-07T22:31:56Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility [38.33724495011223]
MedOrchは、専門的なツールや推論エージェントを編成し、総合的な医療的意思決定支援を提供する新しいフレームワークである。我々は,アルツハイマー病の診断,胸部X線解釈,医用視覚質問応答の3つの医学的応用からMedOrchを評価した。
論文参考訳（メタデータ） (2025-05-30T21:13:12Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration [17.11245701879749]
Generalist Medical AI (GMAI) システムは、バイオメディカル認知タスクにおいて、専門家レベルのパフォーマンスを実証している。本稿では,XMedGPTについて紹介する。XMedGPTはクリニック中心のマルチモーダルAIアシスタントで,テキストと視覚の解釈性を統合している。我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
論文参考訳（メタデータ） (2025-05-11T08:32:01Z)
MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。生体画像検査における解釈可能性と精度を高めるように設計されている。 4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文参考訳（メタデータ） (2024-12-18T11:14:02Z)
A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。 8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文参考訳（メタデータ） (2024-12-17T05:02:33Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文参考訳（メタデータ） (2024-01-11T04:25:06Z)
RJUA-QA: A Comprehensive QA Dataset for Urology [20.688839472350505]
RJUA-QAは、質問応答(QA)と臨床証拠の推論のための新しい医療データセットである。このデータセットには2,132種類の質問-文脈-回答ペアが含まれており、約25,000の診断記録と臨床ケースに対応している。
論文参考訳（メタデータ） (2023-12-15T13:40:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。