Fugu-MT 論文翻訳(概要): MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework

論文の概要: MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework

arxiv url: http://arxiv.org/abs/2410.01553v1
Date: Wed, 2 Oct 2024 13:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 17:04:38.428357
Title: MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework
Title（参考訳）: MedQA-CS:AI-SCEフレームワークを用いた大規模言語モデルの臨床スキルのベンチマーク
Authors: Zonghai Yao, Zihao Zhang, Chaolong Tang, Xingyu Bian, Youxia Zhao, Zhichao Yang, Junda Wang, Huixue Zhou, Won Seok Jang, Feiyun Ouyang, Hong Yu,
Abstract要約: 医学教育の客観的構造化臨床検査(OSCE)に触発されたAI-SCEフレームワークであるMedQA-CSを紹介する。コントリビューションには、公開データとエキスパートアノテーションを備えた総合的な評価フレームワークであるMedQA-CSの開発が含まれている。実験の結果,MedQA-CSは,従来のマルチ選択QAベンチマークよりも,臨床スキルを評価する上で困難なベンチマークであることがわかった。
参考スコア（独自算出の注目度）: 9.747685145146836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial intelligence (AI) and large language models (LLMs) in healthcare require advanced clinical skills (CS), yet current benchmarks fail to evaluate these comprehensively. We introduce MedQA-CS, an AI-SCE framework inspired by medical education's Objective Structured Clinical Examinations (OSCEs), to address this gap. MedQA-CS evaluates LLMs through two instruction-following tasks, LLM-as-medical-student and LLM-as-CS-examiner, designed to reflect real clinical scenarios. Our contributions include developing MedQA-CS, a comprehensive evaluation framework with publicly available data and expert annotations, and providing the quantitative and qualitative assessment of LLMs as reliable judges in CS evaluation. Our experiments show that MedQA-CS is a more challenging benchmark for evaluating clinical skills than traditional multiple-choice QA benchmarks (e.g., MedQA). Combined with existing benchmarks, MedQA-CS enables a more comprehensive evaluation of LLMs' clinical capabilities for both open- and closed-source LLMs.
Abstract（参考訳）: 医療における人工知能(AI)と大規模言語モデル(LLM)は高度な臨床スキル(CS)を必要とするが、現在のベンチマークではこれらを総合的に評価することができない。我々は,このギャップに対処するために,医学教育の客観的構造化臨床検査(OSCE)に触発されたAI-SCEフレームワークであるMedQA-CSを紹介する。 MedQA-CS は LLM-as-medical-student と LLM-as-CS-examiner という2つの命令フォロータスクを通して LLM を評価する。コントリビューションには,公開データとエキスパートアノテーションを備えた総合的な評価フレームワークであるMedQA-CSの開発,CS評価における信頼性評価としてのLCMの定量的,質的な評価などが含まれている。 MedQA-CSは,従来のマルチ選択QAベンチマーク(MedQAなど)よりも,臨床スキルを評価する上で,より困難なベンチマークであることを示す。既存のベンチマークと組み合わせることで、MedQA-CS はオープンソース LLM とクローズドソース LLM の両方に対して LLM の臨床能力をより包括的な評価を可能にする。

関連論文リスト

MedCalc-Eval and MedCalc-Env: Advancing Medical Calculation Capabilities of Large Language Models [12.35019345259966]
MedCalc-Evalは、大規模言語モデルの医療計算能力を評価するための最大のベンチマークである。これらのタスクは、内科、外科、小児科、心臓科を含む様々な専門分野にまたがっており、より広くより困難な評価設定を提供する。我々はさらに、InternBootcampフレームワーク上に構築された強化学習環境であるMedCalc-Envを開発し、多段階の臨床推論と計画を可能にした。
論文参考訳（メタデータ） (2025-10-31T08:07:16Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。 MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文参考訳（メタデータ） (2025-05-16T18:21:52Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator Calculation [10.647090420719666]
実世界のタスクMQCICを導入し、オープンソースの中国の電子カルテ(EMR)ベースのデータセット(CMQCIC-Bench)を提案する。本稿では,臨床事実検証と推論規則推論の動作を阻害する,ルール表現を強化する半自動法と臨床ファクトベース推論規則(CF-IR)法を提案する。その結果,CF-IRはMQCICタスクにおいてChain-of-Thoughtメソッドよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-17T11:40:48Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。 LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-21T08:06:10Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)
Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。 AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文参考訳（メタデータ） (2024-03-13T13:04:58Z)
EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。 EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文参考訳（メタデータ） (2024-02-25T09:41:50Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文参考訳（メタデータ） (2023-10-17T13:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。