論文の概要: Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators
- arxiv url: http://arxiv.org/abs/2411.05897v2
- Date: Fri, 21 Mar 2025 21:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:01.127163
- Title: Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators
- Title(参考訳): 臨床診断支援における人間と大言語モデル--電卓を用いた検討
- Authors: Nicholas Wan, Qiao Jin, Joey Chan, Guangzhi Xiong, Serina Applebaum, Aidan Gilson, Reid McMurry, R. Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu,
- Abstract要約: 大規模言語モデル (LLM) は、ライセンス試験を用いて一般的な医学的知識として評価されている。
本研究は,35個の臨床電卓を対象に,1009個の質問応答ペアを用いたモデルについて検討した。
2人のアノテータは名目上、平均解答精度79.5%のLLMよりも優れていた。
- 参考スコア(独自算出の注目度): 20.782328949004434
- License:
- Abstract: Although large language models (LLMs) have been assessed for general medical knowledge using licensing exams, their ability to support clinical decision-making, such as selecting medical calculators, remains uncertain. We assessed nine LLMs, including open-source, proprietary, and domain-specific models, with 1,009 multiple-choice question-answer pairs across 35 clinical calculators and compared LLMs to humans on a subset of questions. While the highest-performing LLM, OpenAI o1, provided an answer accuracy of 66.0% (CI: 56.7-75.3%) on the subset of 100 questions, two human annotators nominally outperformed LLMs with an average answer accuracy of 79.5% (CI: 73.5-85.0%). Ultimately, we evaluated medical trainees and LLMs in recommending medical calculators across clinical scenarios like risk stratification and diagnosis. With error analysis showing that the highest-performing LLMs continue to make mistakes in comprehension (49.3% of errors) and calculator knowledge (7.1% of errors), our findings highlight that LLMs are not superior to humans in calculator recommendation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ライセンス試験を用いて一般の医療知識として評価されているが、医療電卓の選択などの臨床意思決定を支援する能力は、いまだに不明である。
オープンソース,プロプライエタリ,ドメイン固有モデルを含む9つのLSMを,35個の臨床電卓で1,009個の質問応答ペアで評価し,質問サブセットでLLMを人間と比較した。
最も優れたLLMであるOpenAI o1は、100の質問のサブセットに対して66.0%(CI:56.7-75.3%)の回答精度を提供する一方で、2人のアノテータは、平均回答精度79.5%(CI:73.5-85.0%)で、名目上はLLMより優れていた。
最終的に,リスク階層化や診断などの臨床シナリオにまたがる医療電卓を推奨する医療研修生とLCMを評価した。
エラー分析では、高い性能のLSMは理解力(49.3%の誤り)と計算機知識(7.1%の誤り)で間違いをし続けており、この結果から、LCMは計算機推奨において人間より優れているものではないことが示されている。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - oRetrieval Augmented Generation for 10 Large Language Models and its Generalizability in Assessing Medical Fitness [4.118721833273984]
大規模言語モデル(LLM)は医学的応用の可能性を示すが、専門的な臨床知識が欠如していることが多い。
Retrieval Augmented Generation (RAG)は、ドメイン固有の情報によるカスタマイズを可能にし、医療に適している。
本研究は,手術適応の判定と術前指導におけるRAGモデルの精度,整合性,安全性について検討した。
論文 参考訳(メタデータ) (2024-10-11T00:34:20Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - End-To-End Clinical Trial Matching with Large Language Models [0.6151041580858937]
大言語モデル(LLM)を用いた臨床試験のためのエンドツーエンドパイプラインを提案する。
本研究は,93.3%の症例において関連する候補試験を同定し,88.0%の予備的精度を達成している。
私たちの完全なエンドツーエンドパイプラインは、自律的または人間の監督の下で運用することができ、オンコロジーに限定されません。
論文 参考訳(メタデータ) (2024-07-18T12:36:26Z) - MedCalc-Bench: Evaluating Large Language Models for Medical Calculations [18.8552481902506]
医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
我々は,LSMの医療計算能力を評価することを目的とした,第一種データセットであるMedCalc-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-17T19:07:21Z) - Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。
包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。
私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。
いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T08:41:46Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。