論文の概要: Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2505.06898v1
- Date: Sun, 11 May 2025 08:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.099441
- Title: Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration
- Title(参考訳): 信頼できる人間-AIコラボレーションのためのマルチモーダル説明可能な医療AIアシスタント
- Authors: Honglong Yang, Shanshan Song, Yi Qin, Lehan Wang, Haonan Wang, Xinpeng Ding, Qixiang Zhang, Bodong Du, Xiaomeng Li,
- Abstract要約: Generalist Medical AI (GMAI) システムは、バイオメディカル認知タスクにおいて、専門家レベルのパフォーマンスを実証している。
本稿では,XMedGPTについて紹介する。XMedGPTはクリニック中心のマルチモーダルAIアシスタントで,テキストと視覚の解釈性を統合している。
我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
- 参考スコア(独自算出の注目度): 17.11245701879749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist Medical AI (GMAI) systems have demonstrated expert-level performance in biomedical perception tasks, yet their clinical utility remains limited by inadequate multi-modal explainability and suboptimal prognostic capabilities. Here, we present XMedGPT, a clinician-centric, multi-modal AI assistant that integrates textual and visual interpretability to support transparent and trustworthy medical decision-making. XMedGPT not only produces accurate diagnostic and descriptive outputs, but also grounds referenced anatomical sites within medical images, bridging critical gaps in interpretability and enhancing clinician usability. To support real-world deployment, we introduce a reliability indexing mechanism that quantifies uncertainty through consistency-based assessment via interactive question-answering. We validate XMedGPT across four pillars: multi-modal interpretability, uncertainty quantification, and prognostic modeling, and rigorous benchmarking. The model achieves an IoU of 0.703 across 141 anatomical regions, and a Kendall's tau-b of 0.479, demonstrating strong alignment between visual rationales and clinical outcomes. For uncertainty estimation, it attains an AUC of 0.862 on visual question answering and 0.764 on radiology report generation. In survival and recurrence prediction for lung and glioma cancers, it surpasses prior leading models by 26.9%, and outperforms GPT-4o by 25.0%. Rigorous benchmarking across 347 datasets covers 40 imaging modalities and external validation spans 4 anatomical systems confirming exceptional generalizability, with performance gains surpassing existing GMAI by 20.7% for in-domain evaluation and 16.7% on 11,530 in-house data evaluation. Together, XMedGPT represents a significant leap forward in clinician-centric AI integration, offering trustworthy and scalable support for diverse healthcare applications.
- Abstract(参考訳): Generalist Medical AI (GMAI) システムは、バイオメディカルな知覚タスクにおいて、専門家レベルのパフォーマンスを実証しているが、その臨床的有用性は、マルチモーダルな説明容易性や準最適予後能力によって制限されている。
本稿では,クリニック中心のマルチモーダルAIアシスタントであるXMedGPTについて紹介する。
XMedGPTは、正確な診断と記述のアウトプットを生成するだけでなく、医学画像内の解剖学的部位を参照し、解釈可能性に重大なギャップを埋め、臨床使用性を高める。
実世界の展開を支援するために,対話型質問応答による一貫性に基づく評価を通じて不確実性を定量化する信頼性インデックス化機構を導入する。
我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
このモデルは141の解剖学的領域で0.703のIoUと0.479のKendall's tau-bを達成し、視覚的合理性と臨床結果の間に強い整合性を示す。
不確実性推定のために、視覚的質問応答のAUCは0.862で、放射線学レポート生成の0.764である。
肺およびグリオーマ癌の生存と再発予測では、先行モデルより26.9%、GPT-4oより25.0%高い。
347データセットにわたる厳密なベンチマークは40の画像モダリティをカバーし、外部の検証は4つの解剖学的システムにまたがっており、既存のGMAIを20.7%上回り、11,530件の社内データ評価では16.7%となっている。
XMedGPTは、さまざまな医療アプリケーションに対する信頼性とスケーラブルなサポートを提供する、クリニック中心のAI統合において、大きな前進を示している。
関連論文リスト
- CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models [1.7042756021131187]
本稿では,CBM(Concept Bottleneck Models)とRAG(Multi-Agent Retrieval-Augmented Generation)システムを組み合わせた自動放射線学レポート生成フレームワークを提案する。
CBMは胸部X線の特徴を人間の理解できない臨床概念にマッピングし、透明な疾患分類を可能にする。
RAGシステムはマルチエージェントのコラボレーションと外部知識を統合し、文脈的にリッチなエビデンスベースのレポートを生成する。
論文 参考訳(メタデータ) (2025-04-29T16:14:55Z) - AI-Driven MRI Spine Pathology Detection: A Comprehensive Deep Learning Approach for Automated Diagnosis in Diverse Clinical Settings [0.0]
本研究では,MRI脊椎病理診断のための自律型AIシステムの開発について述べる。
データセットは年齢層、性別、スキャナーメーカー間でバランスを取り、堅牢性と適応性を保証する。
このシステムは、インドの主要医療機関13社に展開され、診断センター、大病院、政府施設を含む。
論文 参考訳(メタデータ) (2025-03-26T08:33:03Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
遠隔医療への応用としてLVLM (Large Vision-Language Models) が検討されているが, 多様な患者行動への関与能力はいまだ検討されていない。
LLM駆動型医療相談の評価を目的としたオープンソースの評価フレームワークである3MDBenchを紹介する。
このベンチマークでは、34の一般的な診断にテキストと画像に基づく患者データを統合し、現実世界の遠隔医療の相互作用を反映している。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。
提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。
8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文 参考訳(メタデータ) (2024-12-17T05:02:33Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。