論文の概要: EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol
- arxiv url: http://arxiv.org/abs/2509.15957v1
- Date: Fri, 19 Sep 2025 13:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.174079
- Title: EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol
- Title(参考訳): EHR-MCP:モデルコンテキストプロトコルを用いた大規模言語モデルによる臨床情報検索の現実的評価
- Authors: Kanato Masayoshi, Masahiro Hashimoto, Ryoichi Yokoyama, Naoki Toda, Yoshifumi Uwamino, Shogo Fukuda, Ho Namkoong, Masahiro Jinzaki,
- Abstract要約: 大規模言語モデル (LLM) は医療における有望性を示すが、病院への展開は電子健康記録(EHR)システムへのアクセス制限によって制限される。
Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。
EHR-MCPは病院のERHデータベースと統合されたカスタムMPPツールのフレームワークで、GPT-4.1をLangGraph ReActエージェントを介して利用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Large language models (LLMs) show promise in medicine, but their deployment in hospitals is limited by restricted access to electronic health record (EHR) systems. The Model Context Protocol (MCP) enables integration between LLMs and external tools. Objective: To evaluate whether an LLM connected to an EHR database via MCP can autonomously retrieve clinically relevant information in a real hospital setting. Methods: We developed EHR-MCP, a framework of custom MCP tools integrated with the hospital EHR database, and used GPT-4.1 through a LangGraph ReAct agent to interact with it. Six tasks were tested, derived from use cases of the infection control team (ICT). Eight patients discussed at ICT conferences were retrospectively analyzed. Agreement with physician-generated gold standards was measured. Results: The LLM consistently selected and executed the correct MCP tools. Except for two tasks, all tasks achieved near-perfect accuracy. Performance was lower in the complex task requiring time-dependent calculations. Most errors arose from incorrect arguments or misinterpretation of tool results. Responses from EHR-MCP were reliable, though long and repetitive data risked exceeding the context window. Conclusions: LLMs can retrieve clinical data from an EHR via MCP tools in a real hospital setting, achieving near-perfect performance in simple tasks while highlighting challenges in complex ones. EHR-MCP provides an infrastructure for secure, consistent data access and may serve as a foundation for hospital AI agents. Future work should extend beyond retrieval to reasoning, generation, and clinical impact assessment, paving the way for effective integration of generative AI into clinical practice.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)は医療における有望性を示すが, 病院への展開は電子健康記録(EHR)システムへの限定的アクセスによって制限される。
Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。
目的:EMPを介してEHRデータベースに接続されたLCMが、実際の病院環境で臨床関連情報を自律的に検索できるかどうかを評価する。
方法: EHR-MCP は病院 EHR データベースと統合されたカスタム MCP ツールのフレームワークであり,GPT-4.1 を LangGraph ReAct エージェントを用いて操作した。
感染管理チーム(ICT)のユースケースから6つのタスクがテストされた。
ICT会議で議論された8人の患者を振り返って分析した。
医師が生成した金の基準との一致が測定された。
結果: LLMは一貫して正しいMPPツールを選択し,実行した。
2つのタスクを除いて、すべてのタスクはほぼ完璧な精度を達成した。
時間依存の計算を必要とする複雑なタスクでは、パフォーマンスが低かった。
ほとんどのエラーは、誤った議論やツール結果の誤解釈から生じた。
EHR-MCPからの応答は信頼性が高かったが、長期かつ反復的なデータはコンテキストウィンドウを超えるリスクがあった。
結論: LLM は実際の病院環境で EHR から MCP ツールを介して臨床データを検索し, 簡単な作業でほぼ完璧なパフォーマンスを達成し, 複雑な作業における課題を強調できる。
EHR-MCPはセキュアで一貫したデータアクセスのためのインフラを提供し、病院AIエージェントの基盤として機能する。
将来の作業は、検索を越えて推論、生成、臨床影響評価まで拡張し、生成AIを臨床実践に効果的に統合するための道を開くべきである。
関連論文リスト
- An LLM-Powered Agent for Physiological Data Analysis: A Case Study on PPG-based Heart Rate Estimation [2.0195680688695594]
大規模言語モデル(LLM)は、対話的なコミュニケーションを通じて診断、患者ケア、意思決定支援を改善することで、医療に革命をもたらしている。
本研究では, LLM と解析ツールの統合におけるギャップを埋めるための生理的時系列解析のための LLM を利用したエージェントを開発した。
OpenCHAをベースとして,OpenAIのGPT-3.5-turboモデルを利用したエージェントは,ユーザインタラクションやデータソース,分析ツールを組み込んで,正確なヘルスインサイトを生成するオーケストレータを備えている。
論文 参考訳(メタデータ) (2025-02-18T13:09:59Z) - Representation Learning of Lab Values via Masked AutoEncoders [2.785172582119726]
逐次的な実験値の計算のためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるLab-MAEを提案する。
Lab-MAEは、患者の人口集団間で同等のパフォーマンスを達成し、臨床予測において公平性を向上させる。
論文 参考訳(メタデータ) (2025-01-05T20:26:49Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records [47.5632532642591]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。
コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文 参考訳(メタデータ) (2024-01-13T18:09:05Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。