論文の概要: Prompt engineering does not universally improve Large Language Model performance across clinical decision-making tasks
- arxiv url: http://arxiv.org/abs/2512.22966v1
- Date: Sun, 28 Dec 2025 15:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.303022
- Title: Prompt engineering does not universally improve Large Language Model performance across clinical decision-making tasks
- Title(参考訳): プロンプトエンジニアリングは、臨床意思決定タスクにおける大規模言語モデルの性能を普遍的に改善しない
- Authors: Mengdi Chai, Ali R. Zomorrodi,
- Abstract要約: LLM(Large Language Models)は、医学的知識評価において有望であるが、実際の臨床的意思決定における実用性は未定である。
一般患者における臨床理由づけのワークフロー全体にわたって, 最先端のLCMs-ChatGPT-4o, Gemini 1.5 Pro, LIama 3.370B-inの臨床的意思決定支援の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated promise in medical knowledge assessments, yet their practical utility in real-world clinical decision-making remains underexplored. In this study, we evaluated the performance of three state-of-the-art LLMs-ChatGPT-4o, Gemini 1.5 Pro, and LIama 3.3 70B-in clinical decision support across the entire clinical reasoning workflow of a typical patient encounter. Using 36 case studies, we first assessed LLM's out-of-the-box performance across five key sequential clinical decision-making tasks under two temperature settings (default vs. zero): differential diagnosis, essential immediate steps, relevant diagnostic testing, final diagnosis, and treatment recommendation. All models showed high variability by task, achieving near-perfect accuracy in final diagnosis, poor performance in relevant diagnostic testing, and moderate performance in remaining tasks. Furthermore, ChatGPT performed better under the zero temperature, whereas LIama showed stronger performance under the default temperature. Next, we assessed whether prompt engineering could enhance LLM performance by applying variations of the MedPrompt framework, incorporating targeted and random dynamic few-shot learning. The results demonstrate that prompt engineering is not a one-size-fit-all solution. While it significantly improved the performance on the task with lowest baseline accuracy (relevant diagnostic testing), it was counterproductive for others. Another key finding was that the targeted dynamic few-shot prompting did not consistently outperform random selection, indicating that the presumed benefits of closely matched examples may be counterbalanced by loss of broader contextual diversity. These findings suggest that the impact of prompt engineering is highly model and task-dependent, highlighting the need for tailored, context-aware strategies for integrating LLMs into healthcare.
- Abstract(参考訳): LLM(Large Language Models)は、医学的知識評価において有望であるが、実際の臨床的意思決定における実用性は未定である。
本研究は、典型的な患者の臨床理由づけのワークフロー全体にわたって、最先端のLSM-ChatGPT-4o, Gemini 1.5 Pro, LIama 3.370B-inの臨床的意思決定支援の評価を行った。
36例のケーススタディを用いて,まず,2つの温度設定(デフォルト対ゼロ)に基づく5つの重要な臨床意思決定タスク(差分診断,本質的即時ステップ,関連診断検査,最終診断,治療勧告)において,LCMのアウト・オブ・ザ・ボックス性能を評価した。
いずれのモデルも,タスクごとの多様性が高く,最終診断におけるほぼ完全精度,関連診断における性能の低下,残りのタスクにおける性能の低下が認められた。
さらに,ChatGPTは0温度では良好な性能を示し,LIamaはデフォルト温度では強い性能を示した。
次に、MedPromptフレームワークのバリエーションを適用し、ターゲット型およびランダムな動的数ショット学習を取り入れることで、迅速なエンジニアリングがLLM性能を向上させるかどうかを評価する。
その結果、迅速なエンジニアリングはすべてのソリューションに相応しいものではないことが証明された。
ベースライン精度が低い(関連する診断検査)タスクのパフォーマンスは著しく向上したが、他のタスクでは非生産的であった。
もう一つの重要な発見は、標的となる動的数発のプロンプトがランダム選択を一貫して上回らなかったことであり、密にマッチした例の想定された利点は、より広い文脈の多様性の喪失によって相反する可能性があることを示している。
これらの結果は、迅速なエンジニアリングの影響は極めてモデル的でタスク依存であり、LSMを医療に組み込むための適切なコンテキスト対応戦略の必要性を強調していることを示唆している。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning [38.49879425944787]
本稿では,仮説駆動型不確実性認識言語エージェントLA-CDMを用いて,臨床診断のための意思決定をモデル化することを提案する。
LA-CDMは, 正確な仮説生成, 仮説の不確実性推定, 効率的な意思決定という, 臨床的意思決定の重要な側面を目標とした3つの目標を掲げて, LA-CDMを訓練する。
4つの腹部疾患を対象とする実世界のデータセットMIMIC-CDMについて検討した。
論文 参考訳(メタデータ) (2025-06-16T13:32:01Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Superhuman performance of a large language model on the reasoning tasks of a physician [9.16343214099031]
数百人の医師のベースラインに対する難治性臨床症例に対する大規模言語モデル(LLM)の医師評価の結果を報告する。
本研究は, 鑑別診断生成, 診断推論の表示, トリアージ差分診断, 確率的推論, 管理推論の5つの実験を行った。
次に, ボストンにある第3次学術医療センターの救急室で無作為に選択された患者を対象に, 人間の専門家とAIの第2の意見を比較検討した。
論文 参考訳(メタデータ) (2024-12-14T14:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。