論文の概要: CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making
- arxiv url: http://arxiv.org/abs/2406.09923v2
- Date: Fri, 11 Oct 2024 20:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:46.561015
- Title: CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making
- Title(参考訳): CliBench: 臨床診断のための大規模言語モデルの多面的および多粒的評価
- Authors: Mingyu Derek Ma, Chenchen Ye, Yu Yan, Xiaoxuan Wang, Peipei Ping, Timothy S Chang, Wei Wang,
- Abstract要約: 我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
- 参考スコア(独自算出の注目度): 16.310913127940857
- License:
- Abstract: The integration of Artificial Intelligence (AI), especially Large Language Models (LLMs), into the clinical diagnosis process offers significant potential to improve the efficiency and accessibility of medical care. While LLMs have shown some promise in the medical domain, their application in clinical diagnosis remains underexplored, especially in real-world clinical practice, where highly sophisticated, patient-specific decisions need to be made. Current evaluations of LLMs in this field are often narrow in scope, focusing on specific diseases or specialties and employing simplified diagnostic tasks. To bridge this gap, we introduce CliBench, a novel benchmark developed from the MIMIC IV dataset, offering a comprehensive and realistic assessment of LLMs' capabilities in clinical diagnosis. This benchmark not only covers diagnoses from a diverse range of medical cases across various specialties but also incorporates tasks of clinical significance: treatment procedure identification, lab test ordering and medication prescriptions. Supported by structured output ontologies, CliBench enables a precise and multi-granular evaluation, offering an in-depth understanding of LLM's capability on diverse clinical tasks of desired granularity. We conduct a zero-shot evaluation of leading LLMs to assess their proficiency in clinical decision-making. Our preliminary results shed light on the potential and limitations of current LLMs in clinical settings, providing valuable insights for future advancements in LLM-powered healthcare.
- Abstract(参考訳): 人工知能(AI)、特にLarge Language Models(LLM)を臨床診断プロセスに統合することは、医療の効率性とアクセシビリティを向上させる重要な可能性をもたらす。
LLMは医療分野においていくつかの可能性を示してきたが、その臨床診断への応用はいまだ研究されていない。
この分野でのLSMの現在の評価はスコープが狭く、特定の疾患や専門性に注目し、簡易な診断タスクを採用することが多い。
このギャップを埋めるために,MIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを導入する。
このベンチマークは、さまざまな専門分野の様々な医療症例の診断だけでなく、治療手順の特定、検査の順序付け、処方薬の処方といった臨床的意義のタスクも含んでいる。
構造化アウトプットオントロジーにより、CliBenchは正確な多粒度評価を可能にし、所望の粒度の多様な臨床タスクにおけるLLMの能力の詳細な理解を提供する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
臨床現場におけるLLMの可能性と限界を概観し,LLMを基盤とした医療の今後の進歩に価値ある洞察を与えることができた。
関連論文リスト
- CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World [34.35946008449027]
包括的臨床診断剤アライメントスイートである ClinicalLab を紹介する。
ClinicalLabには、エンドツーエンドの多部門間臨床診断評価ベンチマークである ClinicalBenchが含まれている。
我々は17個のLDMを評価し,その性能が各部門で大きく異なることを発見した。
論文 参考訳(メタデータ) (2024-06-19T23:44:25Z) - Evaluating large language models in medical applications: a survey [1.5923327069574245]
大規模言語モデル(LLM)は、多くのドメインにまたがる変換可能性を持つ強力なツールとして登場した。
医学的文脈におけるLCMのパフォーマンスを評価することは、医療情報の複雑で批判的な性質から、ユニークな課題を提示する。
論文 参考訳(メタデータ) (2024-05-13T05:08:33Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales [15.362903610463285]
本稿では,素早い学習を通して診断過程を合理化する「推論認識」診断フレームワークを提案する。
そこで本研究では,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。