論文の概要: Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2505.06898v1
- Date: Sun, 11 May 2025 08:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.099441
- Title: Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration
- Title(参考訳): 信頼できる人間-AIコラボレーションのためのマルチモーダル説明可能な医療AIアシスタント
- Authors: Honglong Yang, Shanshan Song, Yi Qin, Lehan Wang, Haonan Wang, Xinpeng Ding, Qixiang Zhang, Bodong Du, Xiaomeng Li,
- Abstract要約: Generalist Medical AI (GMAI) システムは、バイオメディカル認知タスクにおいて、専門家レベルのパフォーマンスを実証している。
本稿では,XMedGPTについて紹介する。XMedGPTはクリニック中心のマルチモーダルAIアシスタントで,テキストと視覚の解釈性を統合している。
我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
- 参考スコア(独自算出の注目度): 17.11245701879749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist Medical AI (GMAI) systems have demonstrated expert-level performance in biomedical perception tasks, yet their clinical utility remains limited by inadequate multi-modal explainability and suboptimal prognostic capabilities. Here, we present XMedGPT, a clinician-centric, multi-modal AI assistant that integrates textual and visual interpretability to support transparent and trustworthy medical decision-making. XMedGPT not only produces accurate diagnostic and descriptive outputs, but also grounds referenced anatomical sites within medical images, bridging critical gaps in interpretability and enhancing clinician usability. To support real-world deployment, we introduce a reliability indexing mechanism that quantifies uncertainty through consistency-based assessment via interactive question-answering. We validate XMedGPT across four pillars: multi-modal interpretability, uncertainty quantification, and prognostic modeling, and rigorous benchmarking. The model achieves an IoU of 0.703 across 141 anatomical regions, and a Kendall's tau-b of 0.479, demonstrating strong alignment between visual rationales and clinical outcomes. For uncertainty estimation, it attains an AUC of 0.862 on visual question answering and 0.764 on radiology report generation. In survival and recurrence prediction for lung and glioma cancers, it surpasses prior leading models by 26.9%, and outperforms GPT-4o by 25.0%. Rigorous benchmarking across 347 datasets covers 40 imaging modalities and external validation spans 4 anatomical systems confirming exceptional generalizability, with performance gains surpassing existing GMAI by 20.7% for in-domain evaluation and 16.7% on 11,530 in-house data evaluation. Together, XMedGPT represents a significant leap forward in clinician-centric AI integration, offering trustworthy and scalable support for diverse healthcare applications.
- Abstract(参考訳): Generalist Medical AI (GMAI) システムは、バイオメディカルな知覚タスクにおいて、専門家レベルのパフォーマンスを実証しているが、その臨床的有用性は、マルチモーダルな説明容易性や準最適予後能力によって制限されている。
本稿では,クリニック中心のマルチモーダルAIアシスタントであるXMedGPTについて紹介する。
XMedGPTは、正確な診断と記述のアウトプットを生成するだけでなく、医学画像内の解剖学的部位を参照し、解釈可能性に重大なギャップを埋め、臨床使用性を高める。
実世界の展開を支援するために,対話型質問応答による一貫性に基づく評価を通じて不確実性を定量化する信頼性インデックス化機構を導入する。
我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
このモデルは141の解剖学的領域で0.703のIoUと0.479のKendall's tau-bを達成し、視覚的合理性と臨床結果の間に強い整合性を示す。
不確実性推定のために、視覚的質問応答のAUCは0.862で、放射線学レポート生成の0.764である。
肺およびグリオーマ癌の生存と再発予測では、先行モデルより26.9%、GPT-4oより25.0%高い。
347データセットにわたる厳密なベンチマークは40の画像モダリティをカバーし、外部の検証は4つの解剖学的システムにまたがっており、既存のGMAIを20.7%上回り、11,530件の社内データ評価では16.7%となっている。
XMedGPTは、さまざまな医療アプリケーションに対する信頼性とスケーラブルなサポートを提供する、クリニック中心のAI統合において、大きな前進を示している。
関連論文リスト
- Modeling Expert AI Diagnostic Alignment via Immutable Inference Snapshots [1.0499611180329804]
初期モデル推論と専門家補正の遷移は、構造化信号としてはほとんど分析されない。
本稿では,AI生成画像に基づくレポートを不変な推論状態として保存する診断アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T13:11:58Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - NEURO-GUARD: Neuro-Symbolic Generalization and Unbiased Adaptive Routing for Diagnostics -- Explainable Medical AI [0.6345042809319409]
NEURO-GUARDは、視覚変換器(ViT)と言語駆動推論を統合して性能を向上させる知識誘導型視覚フレームワークである。
NEURO-GUARDは、大規模言語モデル(LLM)が医療画像の特徴抽出コードを反復的に生成し、評価し、洗練する自己検証のために、検索拡張生成(RAG)機構を採用している。
4つのベンチマークデータセットで糖尿病網膜症分類の実験により、NEURO-GUARDはViTのみのベースラインで精度を6.2%改善し、ドメインの一般化で5%向上した。
論文 参考訳(メタデータ) (2025-12-20T02:32:15Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - How to Evaluate Medical AI [4.23552814358972]
アルゴリズム診断(RPAD, RRAD)の相対精度とリコールについて紹介する。
RPADとRADは、AIの出力を単一の参照ではなく複数の専門家の意見と比較する。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
論文 参考訳(メタデータ) (2025-09-15T14:01:22Z) - Multimodal Attention-Aware Fusion for Diagnosing Distal Myopathy: Evaluating Model Interpretability and Clinician Trust [19.107204920543676]
遠位筋症は広範な臨床症状を呈する骨格筋疾患の一群である。
本稿では,2つの異なる深層学習モデルから抽出した特徴を組み合わせたマルチモーダル・アウェア・フュージョンアーキテクチャを提案する。
提案手法は,これらの特徴をアテンションゲート機構を通じて統合し,予測性能と解釈可能性の両方を向上させる。
論文 参考訳(メタデータ) (2025-08-02T11:08:55Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding [3.5568372183159203]
ReXVQAは胸部X線検査における視覚的質問応答(VQA)の最大かつ最も包括的なベンチマークである。
約696,000の質問と、トレーニング、検証、テストセットにわたる16万の胸部X線研究のペアで構成されている。
我々は,MedGemma-4B-it,Qwen2.5-VL,Janus-Pro-7B,Eagle2-9Bを含む8つの最先端マルチモーダル言語モデルを評価する。
論文 参考訳(メタデータ) (2025-06-04T18:11:59Z) - MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility [38.33724495011223]
MedOrchは、専門的なツールや推論エージェントを編成し、総合的な医療的意思決定支援を提供する新しいフレームワークである。
我々は,アルツハイマー病の診断,胸部X線解釈,医用視覚質問応答の3つの医学的応用からMedOrchを評価した。
論文 参考訳(メタデータ) (2025-05-30T21:13:12Z) - CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models [1.7042756021131187]
本稿では,CBM(Concept Bottleneck Models)とRAG(Multi-Agent Retrieval-Augmented Generation)システムを組み合わせた自動放射線学レポート生成フレームワークを提案する。
CBMは胸部X線の特徴を人間の理解できない臨床概念にマッピングし、透明な疾患分類を可能にする。
RAGシステムはマルチエージェントのコラボレーションと外部知識を統合し、文脈的にリッチなエビデンスベースのレポートを生成する。
論文 参考訳(メタデータ) (2025-04-29T16:14:55Z) - AI-Driven MRI Spine Pathology Detection: A Comprehensive Deep Learning Approach for Automated Diagnosis in Diverse Clinical Settings [0.0]
本研究では,MRI脊椎病理診断のための自律型AIシステムの開発について述べる。
データセットは年齢層、性別、スキャナーメーカー間でバランスを取り、堅牢性と適応性を保証する。
このシステムは、インドの主要医療機関13社に展開され、診断センター、大病院、政府施設を含む。
論文 参考訳(メタデータ) (2025-03-26T08:33:03Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
遠隔医療への応用としてLVLM (Large Vision-Language Models) が検討されているが, 多様な患者行動への関与能力はいまだ検討されていない。
LLM駆動型医療相談の評価を目的としたオープンソースの評価フレームワークである3MDBenchを紹介する。
このベンチマークでは、34の一般的な診断にテキストと画像に基づく患者データを統合し、現実世界の遠隔医療の相互作用を反映している。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。
提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。
8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文 参考訳(メタデータ) (2024-12-17T05:02:33Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。