論文の概要: When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering
- arxiv url: http://arxiv.org/abs/2605.21807v1
- Date: Wed, 20 May 2026 23:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.022915
- Title: When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering
- Title(参考訳): 症例が希少になった場合:オフライン臨床質問回答のための検索ベンチマーク
- Authors: Doeun Lee, Muge Zhang, Yi Yu, Ashish Manne, Stephen Koesters, Frank Wen, Brady Buchanan, Lynda Villagomez, Oluwatoba Moninuola, James Lim, Kathryn Tobin, Andrew Srisuwananukorn, Ping Zhang, Sachin Kumar,
- Abstract要約: ほとんどの医学大言語モデル(LLM)は、共通のガイドラインに焦点を絞った医療知識をそれらのパラメータにエンコードするように訓練されている。
OGCaReBenchは,典型的ガイドラインを超越した臨床質問に答えるためのLCMの評価を目的とした,フリーフォーム検索中心のベンチマークである。
我々の実験によると、最高のパフォーマンスベースライン(GPT-5.2)でさえ、我々のベンチマークの56%しか正しく答えていない。
- 参考スコア(独自算出の注目度): 10.478229476671949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Across medical specialties, clinical practice is anchored in evidence-based guidelines that codify best studied diagnostic and treatment pathways. These pathways routinely fall short for the long tail of real-world care not covered by guidelines. Most medical large language models (LLMs), however, are trained to encode common, guideline-focused medical knowledge in their parameters. Current evaluations test models primarily on recalling and reasoning with this memorized content, often in multiple-choice settings. Given the fundamental importance of evidence-based reasoning in medicine, it is neither feasible nor reliable to depend on memorization in practice. To address this gap, we introduce OGCaReBench, a free-form retrieval-focused benchmark aimed at evaluating LLMs at answering clinical questions that require going beyond typical guidelines. Extracted from published medical case reports and validated by medical experts, OGCaReBench contains long-form clinical questions requiring free-text answers, providing a systematic framework for assessing open-ended medical reasoning in rare, case-based scenarios. Our experiments reveal that even the best-performing baseline (GPT-5.2) correctly answers only 56% of our benchmark with specialized models only reaching 42%. Augmenting models with retrieved medical articles improves this performance to up to 82% (using GPT-5.2) highlighting the importance of evidence-grounding for real-world medical reasoning tasks. This work thus establishes a foundation for benchmarking and advancing both general-purpose and medical LLMs to produce reliable answers in challenging clinical contexts.
- Abstract(参考訳): 医療専門分野において、臨床実践は、診断と治療の最良の方法を示すエビデンスベースのガイドラインに固定されている。
これらの経路は、ガイドラインに守られていない現実世界の介護の長い尾に対して、日常的に不足している。
しかし、ほとんどの医学大言語モデル(LLM)は、共通のガイドラインに焦点を絞った医療知識をそれらのパラメータにエンコードするように訓練されている。
現在の評価は、主に複数の選択設定で、この記憶されたコンテンツをリコールし、推論するテストモデルである。
医学におけるエビデンスに基づく推論の基本的な重要性を考えると、実際には記憶に依存することは不可能であり、信頼できない。
このギャップに対処するために,典型的ガイドラインを超越した臨床問題に答えるためのLCMの評価を目的とした,フリーフォーム検索中心のベンチマークであるOGCaReBenchを紹介した。
OGCaReBenchは、公表された医療事例報告から抽出され、医療専門家によって検証された。
我々の実験によると、最高のパフォーマンスベースライン(GPT-5.2)でさえ、我々のベンチマークの56%しか正しく答えていない。
検索された医療記事によるモデルの強化により、実世界の医療推論タスクにおけるエビデンスグラウンドの重要性が強調され、このパフォーマンスが最大82%向上する(GPT-5.2)。
この研究は、一般的なLLMと医療用LLMのベンチマークと進歩のための基盤を確立し、挑戦的な臨床状況における信頼性の高い回答を生み出す。
関連論文リスト
- Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development [36.38151630332192]
EBM(エビデンス・ベース・メディカル)は、高品質な医療の中心であるが、迅速なプライマリ・ケア・セッティングでは実装が困難である。
本研究では,大規模言語モデル(LLM)を,医師と患者との出会いにおいて,対象としたエビデンスに基づく質問を表面化する環境アシスタントとして活用する可能性について検討した。
論文 参考訳(メタデータ) (2026-03-25T04:58:53Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine [3.471944921180245]
大規模言語モデル(LLM)は、医療領域において大きな可能性を示す。
これらの質問は、USMLEのような試験をモデルとしたMCQ(Multiple-choice Question)を用いて評価されることが多い。
私たちは、想像上のオルガンであるGlianorexを中心とした架空の医療ベンチマークを作成し、記憶された知識と推論能力の分離を可能にしました。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。