Fugu-MT 論文翻訳(概要): EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol

論文の概要: EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol

arxiv url: http://arxiv.org/abs/2509.15957v1
Date: Fri, 19 Sep 2025 13:17:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-22 18:18:11.174079
Title: EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol
Title（参考訳）: EHR-MCP:モデルコンテキストプロトコルを用いた大規模言語モデルによる臨床情報検索の現実的評価
Authors: Kanato Masayoshi, Masahiro Hashimoto, Ryoichi Yokoyama, Naoki Toda, Yoshifumi Uwamino, Shogo Fukuda, Ho Namkoong, Masahiro Jinzaki,
Abstract要約: 大規模言語モデル (LLM) は医療における有望性を示すが、病院への展開は電子健康記録(EHR)システムへのアクセス制限によって制限される。 Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。 EHR-MCPは病院のERHデータベースと統合されたカスタムMPPツールのフレームワークで、GPT-4.1をLangGraph ReActエージェントを介して利用した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: Large language models (LLMs) show promise in medicine, but their deployment in hospitals is limited by restricted access to electronic health record (EHR) systems. The Model Context Protocol (MCP) enables integration between LLMs and external tools. Objective: To evaluate whether an LLM connected to an EHR database via MCP can autonomously retrieve clinically relevant information in a real hospital setting. Methods: We developed EHR-MCP, a framework of custom MCP tools integrated with the hospital EHR database, and used GPT-4.1 through a LangGraph ReAct agent to interact with it. Six tasks were tested, derived from use cases of the infection control team (ICT). Eight patients discussed at ICT conferences were retrospectively analyzed. Agreement with physician-generated gold standards was measured. Results: The LLM consistently selected and executed the correct MCP tools. Except for two tasks, all tasks achieved near-perfect accuracy. Performance was lower in the complex task requiring time-dependent calculations. Most errors arose from incorrect arguments or misinterpretation of tool results. Responses from EHR-MCP were reliable, though long and repetitive data risked exceeding the context window. Conclusions: LLMs can retrieve clinical data from an EHR via MCP tools in a real hospital setting, achieving near-perfect performance in simple tasks while highlighting challenges in complex ones. EHR-MCP provides an infrastructure for secure, consistent data access and may serve as a foundation for hospital AI agents. Future work should extend beyond retrieval to reasoning, generation, and clinical impact assessment, paving the way for effective integration of generative AI into clinical practice.
Abstract（参考訳）: 背景: 大規模言語モデル(LLM)は医療における有望性を示すが, 病院への展開は電子健康記録(EHR)システムへの限定的アクセスによって制限される。 Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。目的:EMPを介してEHRデータベースに接続されたLCMが、実際の病院環境で臨床関連情報を自律的に検索できるかどうかを評価する。方法: EHR-MCP は病院 EHR データベースと統合されたカスタム MCP ツールのフレームワークであり,GPT-4.1 を LangGraph ReAct エージェントを用いて操作した。感染管理チーム(ICT)のユースケースから6つのタスクがテストされた。 ICT会議で議論された8人の患者を振り返って分析した。医師が生成した金の基準との一致が測定された。結果: LLMは一貫して正しいMPPツールを選択し,実行した。 2つのタスクを除いて、すべてのタスクはほぼ完璧な精度を達成した。時間依存の計算を必要とする複雑なタスクでは、パフォーマンスが低かった。ほとんどのエラーは、誤った議論やツール結果の誤解釈から生じた。 EHR-MCPからの応答は信頼性が高かったが、長期かつ反復的なデータはコンテキストウィンドウを超えるリスクがあった。結論: LLM は実際の病院環境で EHR から MCP ツールを介して臨床データを検索し, 簡単な作業でほぼ完璧なパフォーマンスを達成し, 複雑な作業における課題を強調できる。 EHR-MCPはセキュアで一貫したデータアクセスのためのインフラを提供し、病院AIエージェントの基盤として機能する。将来の作業は、検索を越えて推論、生成、臨床影響評価まで拡張し、生成AIを臨床実践に効果的に統合するための道を開くべきである。

関連論文リスト

MedMCP-Calc: Benchmarking LLMs for Realistic Medical Calculator Scenarios via MCP Integration [17.39421062613435]
MedMCP-Calcは、MedMCP(Model Context Protocol)の統合により、医学計算のシナリオを評価するための最初のベンチマークである。 MedMCP-Calcは、4つの臨床領域にまたがる118のシナリオタスクから構成されており、自然なクエリ、構造化データベースのインタラクション、外部参照検索、プロセスレベルの評価を模倣するファジィタスク記述が特徴である。我々は、シナリオ計画とツール拡張を取り入れた微調整モデルであるCalcMateを開発し、オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2026-01-30T14:56:20Z)
A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
Harnessing Large Language Models for Precision Querying and Retrieval-Augmented Knowledge Extraction in Clinical Data Science [3.4325249294405555]
本研究では,2つの基礎的電子健康記録(EHR)データサイエンスタスクに対して,Large Language Models (LLMs)を適用した。我々は、LLMが分析のための大規模な構造化データセットと正確に相互作用する能力をテストする。本稿では,各データセットやタスクの特徴に合わせて,合成質問と解答ペアを自動生成するフレキシブルな評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-28T14:57:36Z)
Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints [11.502074619844125]
CELECは、大規模な言語モデル(LLM)を利用した、自動EHRデータ抽出と分析のためのフレームワークである。 EHRベンチマークのサブセットでは、CELECの実行精度は低レイテンシ、コスト効率、厳格なプライバシを維持しながら達成される。
論文参考訳（メタデータ） (2025-11-02T02:45:54Z)
DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。 DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文参考訳（メタデータ） (2025-05-20T05:18:15Z)
An LLM-Powered Agent for Physiological Data Analysis: A Case Study on PPG-based Heart Rate Estimation [2.0195680688695594]
大規模言語モデル(LLM)は、対話的なコミュニケーションを通じて診断、患者ケア、意思決定支援を改善することで、医療に革命をもたらしている。本研究では, LLM と解析ツールの統合におけるギャップを埋めるための生理的時系列解析のための LLM を利用したエージェントを開発した。 OpenCHAをベースとして,OpenAIのGPT-3.5-turboモデルを利用したエージェントは,ユーザインタラクションやデータソース,分析ツールを組み込んで,正確なヘルスインサイトを生成するオーケストレータを備えている。
論文参考訳（メタデータ） (2025-02-18T13:09:59Z)
Representation Learning of Lab Values via Masked AutoEncoders [2.785172582119726]
逐次的な実験値の計算のためのトランスフォーマーベースのマスク付きオートエンコーダフレームワークであるLab-MAEを提案する。 Lab-MAEは、患者の人口集団間で同等のパフォーマンスを達成し、臨床予測において公平性を向上させる。
論文参考訳（メタデータ） (2025-01-05T20:26:49Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records [47.5632532642591]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文参考訳（メタデータ） (2024-01-13T18:09:05Z)
Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文参考訳（メタデータ） (2024-01-05T15:09:57Z)
Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである* Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。 Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文参考訳（メタデータ） (2023-10-28T12:08:03Z)
Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文参考訳（メタデータ） (2023-09-08T18:44:47Z)
Don't Ignore Dual Logic Ability of LLMs while Privatizing: A Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文参考訳（メタデータ） (2023-09-08T08:20:46Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。 DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文参考訳（メタデータ） (2020-01-22T17:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。