論文の概要: MedMCP-Calc: Benchmarking LLMs for Realistic Medical Calculator Scenarios via MCP Integration
- arxiv url: http://arxiv.org/abs/2601.23049v1
- Date: Fri, 30 Jan 2026 14:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.514637
- Title: MedMCP-Calc: Benchmarking LLMs for Realistic Medical Calculator Scenarios via MCP Integration
- Title(参考訳): MedMCP-Calc:MPP統合によるリアルな医学計算シナリオのためのLLMのベンチマーク
- Authors: Yakun Zhu, Yutong Huang, Shengqian Qin, Zhongzhen Huang, Shaoting Zhang, Xiaofan Zhang,
- Abstract要約: MedMCP-Calcは、MedMCP(Model Context Protocol)の統合により、医学計算のシナリオを評価するための最初のベンチマークである。
MedMCP-Calcは、4つの臨床領域にまたがる118のシナリオタスクから構成されており、自然なクエリ、構造化データベースのインタラクション、外部参照検索、プロセスレベルの評価を模倣するファジィタスク記述が特徴である。
我々は、シナリオ計画とツール拡張を取り入れた微調整モデルであるCalcMateを開発し、オープンソースモデル間の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 17.39421062613435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical calculators are fundamental to quantitative, evidence-based clinical practice. However, their real-world use is an adaptive, multi-stage process, requiring proactive EHR data acquisition, scenario-dependent calculator selection, and multi-step computation, whereas current benchmarks focus only on static single-step calculations with explicit instructions. To address these limitations, we introduce MedMCP-Calc, the first benchmark for evaluating LLMs in realistic medical calculator scenarios through Model Context Protocol (MCP) integration. MedMCP-Calc comprises 118 scenario tasks across 4 clinical domains, featuring fuzzy task descriptions mimicking natural queries, structured EHR database interaction, external reference retrieval, and process-level evaluation. Our evaluation of 23 leading models reveals critical limitations: even top performers like Claude Opus 4.5 exhibit substantial gaps, including difficulty selecting appropriate calculators for end-to-end workflows given fuzzy queries, poor performance in iterative SQL-based database interactions, and marked reluctance to leverage external tools for numerical computation. Performance also varies considerably across clinical domains. Building on these findings, we develop CalcMate, a fine-tuned model incorporating scenario planning and tool augmentation, achieving state-of-the-art performance among open-source models. Benchmark and Codes are available in https://github.com/SPIRAL-MED/MedMCP-Calc.
- Abstract(参考訳): 医学電卓は、量的、エビデンスに基づく臨床実践の基本である。
しかし、彼らの現実の用途は適応的で多段階のプロセスであり、アクティブなEHRデータ取得、シナリオ依存の計算機選択、マルチステップの計算を必要とする。
MedMCP-Calcは,MedMCP(MedMCP-Calc)とMedMCP-Calc(MedMCP-Calc)の統合により,現実的な医療計算のシナリオにおけるLCMを評価するための最初のベンチマークである。
MedMCP-Calcは、4つの臨床領域にまたがる118のシナリオタスクから構成されており、自然なクエリを模倣するファジィタスク記述、構造化されたEHRデータベースインタラクション、外部参照検索、プロセスレベルの評価が特徴である。
Claude Opus 4.5のようなトップパフォーマーでさえ、ファジィクエリが与えられたエンドツーエンドのワークフローに適切な電卓を選択するのが難しいこと、反復的なSQLベースのデータベースインタラクションのパフォーマンスが低かったこと、数値計算に外部ツールを利用するのが難しかったことなど、大きなギャップがある。
パフォーマンスも臨床領域によって大きく異なる。
これらの知見に基づいて,シナリオ計画とツール拡張を組み込んだ微調整モデルであるCalcMateを開発し,オープンソースモデル間の最先端性能を実現する。
ベンチマークとコードはhttps://github.com/SPIRAL-MED/MedMCP-Calc.comで入手できる。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - MedCalc-Eval and MedCalc-Env: Advancing Medical Calculation Capabilities of Large Language Models [12.35019345259966]
MedCalc-Evalは、大規模言語モデルの医療計算能力を評価するための最大のベンチマークである。
これらのタスクは、内科、外科、小児科、心臓科を含む様々な専門分野にまたがっており、より広くより困難な評価設定を提供する。
我々はさらに、InternBootcampフレームワーク上に構築された強化学習環境であるMedCalc-Envを開発し、多段階の臨床推論と計画を可能にした。
論文 参考訳(メタデータ) (2025-10-31T08:07:16Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol [0.0]
大規模言語モデル (LLM) は医療における有望性を示すが、病院への展開は電子健康記録(EHR)システムへのアクセス制限によって制限される。
Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。
EHR-MCPは病院のERHデータベースと統合されたカスタムMPPツールのフレームワークで、GPT-4.1をLangGraph ReActエージェントを介して利用した。
論文 参考訳(メタデータ) (2025-09-19T13:17:16Z) - MedCalc-Bench: Evaluating Large Language Models for Medical Calculations [18.8552481902506]
医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
我々は,LSMの医療計算能力を評価することを目的とした,第一種データセットであるMedCalc-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-17T19:07:21Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。