論文の概要: ClinicalBench: Can LLMs Beat Traditional ML Models in Clinical Prediction?
- arxiv url: http://arxiv.org/abs/2411.06469v1
- Date: Sun, 10 Nov 2024 14:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:17.929138
- Title: ClinicalBench: Can LLMs Beat Traditional ML Models in Clinical Prediction?
- Title(参考訳): 臨床ベンチ:LLMは従来のMLモデルに勝てるか?
- Authors: Canyu Chen, Jian Yu, Shan Chen, Che Liu, Zhongwei Wan, Danielle Bitterman, Fei Wang, Kai Shu,
- Abstract要約: 汎用LLMと医療用LLMの両方の臨床予測モデル能力について検討する。
汎用LLMも医療用LLMも、異なるモデルスケール、多様なプロンプトや微調整戦略であっても、まだ臨床予測において従来のMLモデルに勝てないことが判明した。
- 参考スコア(独自算出の注目度): 28.792531510994856
- License:
- Abstract: Large Language Models (LLMs) hold great promise to revolutionize current clinical systems for their superior capacities on medical text processing tasks and medical licensing exams. Meanwhile, traditional ML models such as SVM and XGBoost have still been mainly adopted in clinical prediction tasks. An emerging question is Can LLMs beat traditional ML models in clinical prediction? Thus, we build a new benchmark ClinicalBench to comprehensively study the clinical predictive modeling capacities of both general-purpose and medical LLMs, and compare them with traditional ML models. ClinicalBench embraces three common clinical prediction tasks, two databases, 14 general-purpose LLMs, 8 medical LLMs, and 11 traditional ML models. Through extensive empirical investigation, we discover that both general-purpose and medical LLMs, even with different model scales, diverse prompting or fine-tuning strategies, still cannot beat traditional ML models in clinical prediction yet, shedding light on their potential deficiency in clinical reasoning and decision-making. We call for caution when practitioners adopt LLMs in clinical applications. ClinicalBench can be utilized to bridge the gap between LLMs' development for healthcare and real-world clinical practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療用テキスト処理タスクや医療用ライセンス試験において優れた能力を持つために、現在の臨床システムに革命をもたらすという大きな約束を持っている。
一方、SVMやXGBoostのような従来のMLモデルは、主に臨床予測タスクで採用されている。
LLMが従来のMLモデルに勝てるのか?
そこで,本研究では,汎用LLMと医療用LLMの両方の臨床予測モデル能力について総合的に研究し,従来のMLモデルと比較した。
ClinicalBenchには3つの一般的な臨床予測タスク、2つのデータベース、14の汎用LSM、8の医療LSM、11の伝統的なMLモデルがある。
広範囲にわたる実証調査により,様々なモデルスケール,多様なプロンプトや微調整戦略をともなう汎用LLMと医療LLMが,まだ臨床予測において従来のMLモデルに勝てず,臨床推論や意思決定における潜在的な欠陥に光を当てることが判明した。
臨床応用に LLM を採用する場合, 注意が必要である。
クリニカルベンチは、LLMsの医療開発と実際の臨床実践のギャップを埋めるために使用できる。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - CLIMB: A Benchmark of Clinical Bias in Large Language Models [39.82307008221118]
大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。
バイアスを示す可能性は、臨床の株式に重大なリスクをもたらす。
現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。
論文 参考訳(メタデータ) (2024-07-07T03:41:51Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds [32.99251005719732]
臨床推論(英: Clinical reasoning)とは、医師が患者の評価と管理に用いている認知過程のことである。
本研究では,医学的知識によるLCMの強化を目的とした新しい枠組みであるICP(In-Context Padding)を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:53:20Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Redefining Digital Health Interfaces with Large Language Models [69.02059202720073]
大規模言語モデル(LLM)は、複雑な情報を処理できる汎用モデルとして登場した。
LLMが臨床医とデジタル技術との新たなインターフェースを提供する方法を示す。
自動機械学習を用いた新しい予後ツールを開発した。
論文 参考訳(メタデータ) (2023-10-05T14:18:40Z) - Diagnostic Reasoning Prompts Reveal the Potential for Large Language
Model Interpretability in Medicine [4.773117448586697]
そこで我々は,大言語モデル(LLM)が臨床推論を実行し,正確な診断を行うことができるかどうかを,新たな診断推論プロンプトを開発した。
GPT4は診断精度を犠牲にすることなく臨床医の一般的な臨床推論過程を模倣することができる。
論文 参考訳(メタデータ) (2023-08-13T19:04:07Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。