論文の概要: How Much Would a Clinician Edit This Draft? Evaluating LLM Alignment for Patient Message Response Drafting
- arxiv url: http://arxiv.org/abs/2601.11344v1
- Date: Fri, 16 Jan 2026 14:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.529135
- Title: How Much Would a Clinician Edit This Draft? Evaluating LLM Alignment for Patient Message Response Drafting
- Title(参考訳): 臨床医はどれくらいでこの図面を編集するだろうか? 患者メッセージ応答図面のLCMアライメントの評価
- Authors: Parker Seegmiller, Joseph Gatto, Sarah E. Greer, Ganza Belise Isingizwe, Rohan Ray, Timothy E. Burdick, Sarah Masud Preum,
- Abstract要約: 大規模言語モデル(LLM)は、患者のポータルメッセージに対するドラフトレスポンスの約束を示す。
臨床への統合は、実際に臨床医の時間と労力を節約できるかどうかなど、様々な懸念を提起する。
臨床反応におけるテーマ要素の新しい分類法を開発した。
- 参考スコア(独自算出の注目度): 6.187770921319374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise in drafting responses to patient portal messages, yet their integration into clinical workflows raises various concerns, including whether they would actually save clinicians time and effort in their portal workload. We investigate LLM alignment with individual clinicians through a comprehensive evaluation of the patient message response drafting task. We develop a novel taxonomy of thematic elements in clinician responses and propose a novel evaluation framework for assessing clinician editing load of LLM-drafted responses at both content and theme levels. We release an expert-annotated dataset and conduct large-scale evaluations of local and commercial LLMs using various adaptation techniques including thematic prompting, retrieval-augmented generation, supervised fine-tuning, and direct preference optimization. Our results reveal substantial epistemic uncertainty in aligning LLM drafts with clinician responses. While LLMs demonstrate capability in drafting certain thematic elements, they struggle with clinician-aligned generation in other themes, particularly question asking to elicit further information from patients. Theme-driven adaptation strategies yield improvements across most themes. Our findings underscore the necessity of adapting LLMs to individual clinician preferences to enable reliable and responsible use in patient-clinician communication workflows.
- Abstract(参考訳): 大きな言語モデル(LLM)は、患者のポータルメッセージに対する応答のドラフト作成を約束するが、臨床ワークフローへの統合は、ポータルのワークロードにおいて、実際に臨床医の時間と労力を節約できるかどうかなど、さまざまな懸念を提起する。
患者メッセージの起草作業の包括的評価を通じて,各臨床医とLLMの連携について検討した。
臨床反応におけるテーマ要素の新たな分類法を開発し,LLMによる回答の編集負荷をコンテンツレベルとテーマレベルで評価するための新しい評価枠組みを提案する。
提案手法は,テーマプロンプト,検索拡張生成,教師付き微調整,直接選好最適化など,多種多様な手法を用いて,専門家アノテートされたデータセットを公開し,地域および商業LLMの大規模評価を行う。
以上の結果より, LLMドラフトと臨床反応の整合性にはかなり不確実性があることが示唆された。
LLMは特定のテーマ要素を起草する能力を示しているが、他のテーマではクリニカル・アライメント・ジェネレーションに苦慮している。
テーマ駆動の適応戦略は、ほとんどのテーマにまたがって改善をもたらす。
本研究は,患者・クリニシアンコミュニケーションワークフローにおける信頼性および責任ある使用を可能にするために,個々の診療者の嗜好にLCMを適用することの必要性を明らかにするものである。
関連論文リスト
- Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks [72.89088985703748]
大きな言語モデル(LLM)の台頭は、臨床ガイダンスを提供することで医療に変化をもたらしたが、患者への直接の展開は安全性のリスクをもたらす。
我々は,患者と直接対話するのではなく,経験豊富な医師と協力する臨床助手としてLLMを再配置することを提案する。
我々は、22の臨床的タスクと27の専門分野にわたる92,000のQ&Aインスタンスからなる大規模な中国の医療データセットであるDoctorFLANを構築した。
論文 参考訳(メタデータ) (2025-10-13T06:18:27Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。