論文の概要: Beyond MedQA: Towards Real-world Clinical Decision Making in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2510.20001v1
- Date: Wed, 22 Oct 2025 20:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.820516
- Title: Beyond MedQA: Towards Real-world Clinical Decision Making in the Era of LLMs
- Title(参考訳): MedQAを超えて:LLMの時代における現実の臨床的意思決定を目指して
- Authors: Yunpeng Xiao, Carl Yang, Mark Mai, Xiao Hu, Kai Shu,
- Abstract要約: 大型言語モデル (LLM) は臨床応用の可能性を示唆している。
多くの医学データセットは、現実の臨床的意思決定を過小評価する簡易的な質問回答 (QA) に依存している。
臨床背景と臨床質問の2つの側面に沿って臨床意思決定タスクを特徴付ける統一パラダイムを提案する。
- 参考スコア(独自算出の注目度): 37.6690828097719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise for clinical use. They are often evaluated using datasets such as MedQA. However, Many medical datasets, such as MedQA, rely on simplified Question-Answering (Q\A) that underrepresents real-world clinical decision-making. Based on this, we propose a unifying paradigm that characterizes clinical decision-making tasks along two dimensions: Clinical Backgrounds and Clinical Questions. As the background and questions approach the real clinical environment, the difficulty increases. We summarize the settings of existing datasets and benchmarks along two dimensions. Then we review methods to address clinical decision-making, including training-time and test-time techniques, and summarize when they help. Next, we extend evaluation beyond accuracy to include efficiency, explainability. Finally, we highlight open challenges. Our paradigm clarifies assumptions, standardizes comparisons, and guides the development of clinically meaningful LLMs.
- Abstract(参考訳): 大型言語モデル (LLM) は臨床応用の可能性を示唆している。
MedQAのようなデータセットを使って評価されることが多い。
しかし、MedQAのような多くの医療データセットは、現実の臨床的意思決定を過小評価する単純な質問回答(Q\A)に依存している。
そこで本研究では,臨床背景と臨床質問の2つの側面に沿って臨床意思決定タスクを特徴付ける統一パラダイムを提案する。
背景と疑問が実際の臨床環境に近づくと、困難が増す。
既存のデータセットとベンチマークの設定を2次元で要約する。
次に,研修時間や試験時間を含む臨床意思決定の手法を概観し,その支援時期を概観する。
次に、評価を精度を超えて拡張し、効率性、説明可能性を含む。
最後に、オープンな課題を強調します。
我々のパラダイムは仮定を明確にし、比較を標準化し、臨床的に意味のあるLSMの開発を導く。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。