論文の概要: MedCalc-Bench: Evaluating Large Language Models for Medical Calculations
- arxiv url: http://arxiv.org/abs/2406.12036v3
- Date: Thu, 27 Jun 2024 15:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:47:10.158918
- Title: MedCalc-Bench: Evaluating Large Language Models for Medical Calculations
- Title(参考訳): MedCalc-Bench:医学計算のための大規模言語モデルの評価
- Authors: Nikhil Khandekar, Qiao Jin, Guangzhi Xiong, Soren Dunn, Serina S Applebaum, Zain Anwar, Maame Sarfo-Gyamfi, Conrad W Safranek, Abid A Anwar, Andrew Zhang, Aidan Gilson, Maxwell B Singer, Amisha Dave, Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu,
- Abstract要約: 医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
我々は,LSMの医療計算能力を評価することを目的とした,第一種データセットであるMedCalc-Benchを提案する。
- 参考スコア(独自算出の注目度): 18.8552481902506
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As opposed to evaluating computation and logic-based reasoning, current benchmarks for evaluating large language models (LLMs) in medicine are primarily focused on question-answering involving domain knowledge and descriptive reasoning. While such qualitative capabilities are vital to medical diagnosis, in real-world scenarios, doctors frequently use clinical calculators that follow quantitative equations and rule-based reasoning paradigms for evidence-based decision support. To this end, we propose MedCalc-Bench, a first-of-its-kind dataset focused on evaluating the medical calculation capability of LLMs. MedCalc-Bench contains an evaluation set of over 1000 manually reviewed instances from 55 different medical calculation tasks. Each instance in MedCalc-Bench consists of a patient note, a question requesting to compute a specific medical value, a ground truth answer, and a step-by-step explanation showing how the answer is obtained. While our evaluation results show the potential of LLMs in this area, none of them are effective enough for clinical settings. Common issues include extracting the incorrect entities, not using the correct equation or rules for a calculation task, or incorrectly performing the arithmetic for the computation. We hope our study highlights the quantitative knowledge and reasoning gaps in LLMs within medical settings, encouraging future improvements of LLMs for various clinical calculation tasks.
- Abstract(参考訳): 計算と論理ベースの推論を評価するのとは対照的に、医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
このような定性的な能力は医学的診断に不可欠であるが、現実のシナリオでは、医師はしばしば、定量的方程式に従う臨床電卓と、エビデンスベースの意思決定支援のためのルールベースの推論パラダイムを使用する。
この目的のために, LLMの医療計算能力を評価することを目的とした, 第一種データセットであるMedCalc-Benchを提案する。
MedCalc-Benchには、55の異なる医療計算タスクから1000以上のレビュー済みのインスタンスの評価セットが含まれている。
MedCalc-Benchの各インスタンスは、患者ノート、特定の医学的価値の計算を要求する質問、真実の答え、そしてその答えがどのように得られるかを示すステップバイステップの説明からなる。
以上の結果から, 当科におけるLSMsの有用性が示唆されるが, 臨床検査に十分な効果は得られていない。
一般的な問題としては、不正なエンティティを抽出すること、計算タスクに正しい方程式や規則を使わないこと、計算の算術を誤って実行することなどがある。
医療現場におけるLSMの量的知識と推論のギャップを強調し,様々な臨床計算タスクにおけるLCMの今後の改善を促すことを願っている。
関連論文リスト
- SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。
包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。
私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。
いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T08:41:46Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。