論文の概要: MedCalc-Eval and MedCalc-Env: Advancing Medical Calculation Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.27267v1
- Date: Fri, 31 Oct 2025 08:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.035093
- Title: MedCalc-Eval and MedCalc-Env: Advancing Medical Calculation Capabilities of Large Language Models
- Title(参考訳): MedCalc-EvalとMedCalc-Env:大規模言語モデルの医療計算能力の向上
- Authors: Kangkun Mao, Jinru Ding, Jiayuan Chen, Mouxiao Bian, Ruiyao Chen, Xinwei Peng, Sijie Ren, Linyang Li, Jie Xu,
- Abstract要約: MedCalc-Evalは、大規模言語モデルの医療計算能力を評価するための最大のベンチマークである。
これらのタスクは、内科、外科、小児科、心臓科を含む様々な専門分野にまたがっており、より広くより困難な評価設定を提供する。
我々はさらに、InternBootcampフレームワーク上に構築された強化学習環境であるMedCalc-Envを開発し、多段階の臨床推論と計画を可能にした。
- 参考スコア(独自算出の注目度): 12.35019345259966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) enter the medical domain, most benchmarks evaluate them on question answering or descriptive reasoning, overlooking quantitative reasoning critical to clinical decision-making. Existing datasets like MedCalc-Bench cover few calculation tasks and fail to reflect real-world computational scenarios. We introduce MedCalc-Eval, the largest benchmark for assessing LLMs' medical calculation abilities, comprising 700+ tasks across two types: equation-based (e.g., Cockcroft-Gault, BMI, BSA) and rule-based scoring systems (e.g., Apgar, Glasgow Coma Scale). These tasks span diverse specialties including internal medicine, surgery, pediatrics, and cardiology, offering a broader and more challenging evaluation setting. To improve performance, we further develop MedCalc-Env, a reinforcement learning environment built on the InternBootcamp framework, enabling multi-step clinical reasoning and planning. Fine-tuning a Qwen2.5-32B model within this environment achieves state-of-the-art results on MedCalc-Eval, with notable gains in numerical sensitivity, formula selection, and reasoning robustness. Remaining challenges include unit conversion, multi-condition logic, and contextual understanding. Code and datasets are available at https://github.com/maokangkun/MedCalc-Eval.
- Abstract(参考訳): 大規模言語モデル(LLM)が医学領域に入ると、ほとんどのベンチマークは質問応答や記述的推論に基づいてそれらを評価し、臨床的意思決定に重要な量的推論を見越す。
MedCalc-Benchのような既存のデータセットは計算タスクをほとんどカバーせず、実際の計算シナリオを反映できない。
MedCalc-EvalはLLMの医療計算能力を評価するための最大のベンチマークであり、方程式ベース(例:Cockcroft-Gault, BMI, BSA)とルールベーススコアシステム(例:Apgar, Glasgow Coma Scale)の2種類にまたがる700以上のタスクを含む。
これらのタスクは、内科、外科、小児科、心臓科を含む様々な専門分野にまたがっており、より広くより困難な評価設定を提供する。
InternBootcampフレームワーク上に構築された強化学習環境であるMedCalc-Envをさらに発展させ,多段階の臨床推論と計画を可能にした。
この環境下でQwen2.5-32Bモデルを微調整すると、MedCalc-Evalの最先端結果が得られる。
残る課題は、単体変換、マルチ条件論理、文脈理解である。
コードとデータセットはhttps://github.com/maokangkun/MedCalc-Eval.comで入手できる。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedCalc-Bench: Evaluating Large Language Models for Medical Calculations [18.8552481902506]
医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
我々は,LSMの医療計算能力を評価することを目的とした,第一種データセットであるMedCalc-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-17T19:07:21Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - Does the Magic of BERT Apply to Medical Code Assignment? A Quantitative
Study [2.871614744079523]
事前訓練されたモデルが、さらなるアーキテクチャエンジニアリングなしで医療コード予測に有用かどうかは明らかではない。
本稿では,単語間のインタラクションをキャプチャし,ラベル情報を活用する階層的な微調整アーキテクチャを提案する。
現在の傾向とは対照的に、我々は慎重に訓練された古典的なCNNは、頻繁なコードでMIMIC-IIIサブセット上の注意ベースのモデルを上回ることを実証します。
論文 参考訳(メタデータ) (2021-03-11T07:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。