論文の概要: CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field
- arxiv url: http://arxiv.org/abs/2511.03441v2
- Date: Thu, 06 Nov 2025 11:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.513021
- Title: CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field
- Title(参考訳): CareMedEval データセット: バイオメディカル分野における臨界評価と推論の評価
- Authors: Doria Bonzi, Alexandre Guiggi, Frédéric Béchet, Carlos Ramisch, Benoit Favre,
- Abstract要約: CareMedEvalは,大規模言語モデル(LLM)を重要な評価タスクで評価するために設計された,オリジナルのデータセットである。
CareMedEvalは、科学論文に根ざした批判的な読解と推論を明確に評価している。
各種環境条件下でのバイオメディカル・特殊化LDMのベンチマークにより,課題の難しさが明らかになった。
- 参考スコア(独自算出の注目度): 41.26267474136343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical appraisal of scientific literature is an essential skill in the biomedical field. While large language models (LLMs) can offer promising support in this task, their reliability remains limited, particularly for critical reasoning in specialized domains. We introduce CareMedEval, an original dataset designed to evaluate LLMs on biomedical critical appraisal and reasoning tasks. Derived from authentic exams taken by French medical students, the dataset contains 534 questions based on 37 scientific articles. Unlike existing benchmarks, CareMedEval explicitly evaluates critical reading and reasoning grounded in scientific papers. Benchmarking state-of-the-art generalist and biomedical-specialized LLMs under various context conditions reveals the difficulty of the task: open and commercial models fail to exceed an Exact Match Rate of 0.5 even though generating intermediate reasoning tokens considerably improves the results. Yet, models remain challenged especially on questions about study limitations and statistical analysis. CareMedEval provides a challenging benchmark for grounded reasoning, exposing current LLM limitations and paving the way for future development of automated support for critical appraisal.
- Abstract(参考訳): 科学文献の批判的評価は、医学分野において必須のスキルである。
大規模言語モデル(LLM)はこのタスクで有望なサポートを提供することができるが、信頼性は限定的であり、特に専門分野における批判的な理由のためである。
CareMedEvalは,生物医学的臨界評価および推論タスクにおけるLCMの評価を目的とした,オリジナルのデータセットである。
このデータセットは、フランスの医学生による真正の試験から派生したもので、37の科学論文に基づく534の質問を含んでいる。
既存のベンチマークとは異なり、CareMedEvalは科学論文に根ざした批判的な読解と推論を明確に評価している。
様々な状況下で、最先端のジェネラリストおよびバイオメディカル特殊化LSMをベンチマークすると、その課題の難しさが明らかになる: 中間推論トークンを生成しても、オープンモデルと商用モデルは、厳密なマッチングレート0.5を超えない。
しかし、研究の限界や統計分析に関する疑問に対して、モデルは依然として挑戦されている。
CareMedEvalは、根拠付き推論のための挑戦的なベンチマークを提供し、現在のLCMの制限を明らかにし、クリティカルな評価のための自動サポートを将来開発するための道を開く。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Evaluating LLMs in Medicine: A Call for Rigor, Transparency [2.2445597370194834]
方法: MedQA, MedMCQA, PubMedQA, MMLUを含む広範囲に使用されているベンチマークデータセットを, 厳密さ, 透明性, 臨床シナリオとの関連性についてレビューした。
医学雑誌の課題質問などの代替案も分析され、その可能性を偏見のない評価ツールとして特定した。
論文 参考訳(メタデータ) (2025-07-11T16:09:25Z) - Automating Expert-Level Medical Reasoning Evaluation of Large Language Models [26.702477426812333]
我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。
また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。
全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
論文 参考訳(メタデータ) (2025-07-10T17:58:26Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。