論文の概要: Asking the Right Questions: Benchmarking Large Language Models in the Development of Clinical Consultation Templates
- arxiv url: http://arxiv.org/abs/2508.01159v1
- Date: Sat, 02 Aug 2025 02:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.735389
- Title: Asking the Right Questions: Benchmarking Large Language Models in the Development of Clinical Consultation Templates
- Title(参考訳): 正しい質問:臨床相談テンプレートの開発における大規模言語モデルのベンチマーク
- Authors: Liam G. McCoy, Fateme Nateghi Haredasht, Kanav Chopra, David Wu, David JH Wu, Abass Conteh, Sarita Khemani, Saloni Kumar Maharaj, Vishnu Ravi, Arth Pahwa, Yingjie Weng, Leah Rosengaus, Lena Giang, Kelvin Zhenghao Li, Olivia Jee, Daniel Shirvani, Ethan Goh, Jonathan H. Chen,
- Abstract要約: 145名の専門家によるテンプレートを用いて,臨床的整合性,簡潔さ,優先順位付けされた臨床質問スキーマの作成能力の評価を行った。
o3のようなモデルは高い包括性(最大92.2%)を達成するが、常に非常に長いテンプレートを生成する。
パフォーマンスは専門分野によって異なり、精神医学や痛み医学のような物語駆動の分野において著しく低下している。
- 参考スコア(独自算出の注目度): 3.225928471841556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the capacity of large language models (LLMs) to generate structured clinical consultation templates for electronic consultation. Using 145 expert-crafted templates developed and routinely used by Stanford's eConsult team, we assess frontier models -- including o3, GPT-4o, Kimi K2, Claude 4 Sonnet, Llama 3 70B, and Gemini 2.5 Pro -- for their ability to produce clinically coherent, concise, and prioritized clinical question schemas. Through a multi-agent pipeline combining prompt optimization, semantic autograding, and prioritization analysis, we show that while models like o3 achieve high comprehensiveness (up to 92.2\%), they consistently generate excessively long templates and fail to correctly prioritize the most clinically important questions under length constraints. Performance varies across specialties, with significant degradation in narrative-driven fields such as psychiatry and pain medicine. Our findings demonstrate that LLMs can enhance structured clinical information exchange between physicians, while highlighting the need for more robust evaluation methods that capture a model's ability to prioritize clinically salient information within the time constraints of real-world physician communication.
- Abstract(参考訳): 本研究は,電子コンサルテーションのための構造化された臨床コンサルティングテンプレートを作成するための言語モデル (LLM) の能力を評価する。
スタンフォード大学のeConsultチームが開発した145のエキスパートによるテンプレートを使用して、臨床に一貫性があり簡潔で優先順位付けされた質問スキーマを作成できるため、フロンティアモデル(o3, GPT-4o, Kimi K2, Claude 4 Sonnet, Llama 370B, Gemini 2.5 Pro)を評価する。
高速な最適化,セマンティック・オートグレーディング,優先度付け分析を組み合わせたマルチエージェント・パイプラインを用いて,o3のようなモデルが高い包括性(最大92.2\%)を達成する一方で,過度に長いテンプレートを連続的に生成し,臨床上重要な問題を正確に優先順位付けすることができないことを示す。
パフォーマンスは専門分野によって異なり、精神医学や痛み医学のような物語駆動の分野において著しく低下している。
本研究は, LLMが医師間の構造的臨床情報交換を促進できることを示すとともに, 実世界の医師とのコミュニケーションの時間的制約の中で, より堅牢な評価方法の必要性を強調した。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks [22.539696532725607]
LLM(Large Language Models)は、医学においてますます普及している。
しかし, 臨床診断における有用性は未評価のままである。
本研究は,GPTをベースとしたLCM9,BERTをベースとしたモデル5,非構造化臨床ノートと構造化電子健康記録の従来手法7をベンチマークすることで,この問題に対処する。
論文 参考訳(メタデータ) (2024-07-26T06:09:10Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - SoftTiger: A Clinical Foundation Model for Healthcare Workflows [5.181665205189493]
医療基盤モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。
我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。
公立および認証臨床データを用いて,最先端のLCMの微調整を指導した。
論文 参考訳(メタデータ) (2024-03-01T04:39:16Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Clinical Camel: An Open Expert-Level Medical Language Model with
Dialogue-Based Knowledge Encoding [31.884600238089405]
臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。
QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T23:07:09Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。