論文の概要: Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design
- arxiv url: http://arxiv.org/abs/2510.27535v1
- Date: Fri, 31 Oct 2025 15:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.1451
- Title: Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design
- Title(参考訳): AI臨床要約のための患者中心の要約フレームワーク:混合手法の設計
- Authors: Maria Lizarazo Jimenez, Ana Gabriela Claros, Kieran Green, David Toro-Tobon, Felipe Larios, Sheena Asthana, Camila Wenczenovicz, Kerly Guevara Maldonado, Luis Vilatuna-Andrango, Cristina Proano-Velez, Satya Sai Sri Bandi, Shubhangi Bagewadi, Megan E. Branda, Misk Al Zahidy, Saturnino Luz, Mirella Lapata, Juan P. Brito, Oscar J. Ponce-Ponte,
- Abstract要約: 患者中心サマリ(PCS)における人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値を捉え,臨床的有用性を確保するためのPCS作成フレームワークを開発することである。
5つのオープンソース LLM がゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルテーションの要約を生成する。
- 参考スコア(独自算出の注目度): 23.21070690395588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly demonstrating the potential to reach human-level performance in generating clinical summaries from patient-clinician conversations. However, these summaries often focus on patients' biology rather than their preferences, values, wishes, and concerns. To achieve patient-centered care, we propose a new standard for Artificial Intelligence (AI) clinical summarization tasks: Patient-Centered Summaries (PCS). Our objective was to develop a framework to generate PCS that capture patient values and ensure clinical utility and to assess whether current open-source LLMs can achieve human-level performance in this task. We used a mixed-methods process. Two Patient and Public Involvement groups (10 patients and 8 clinicians) in the United Kingdom participated in semi-structured interviews exploring what personal and contextual information should be included in clinical summaries and how it should be structured for clinical use. Findings informed annotation guidelines used by eight clinicians to create gold-standard PCS from 88 atrial fibrillation consultations. Sixteen consultations were used to refine a prompt aligned with the guidelines. Five open-source LLMs (Llama-3.2-3B, Llama-3.1-8B, Mistral-8B, Gemma-3-4B, and Qwen3-8B) generated summaries for 72 consultations using zero-shot and few-shot prompting, evaluated with ROUGE-L, BERTScore, and qualitative metrics. Patients emphasized lifestyle routines, social support, recent stressors, and care values. Clinicians sought concise functional, psychosocial, and emotional context. The best zero-shot performance was achieved by Mistral-8B (ROUGE-L 0.189) and Llama-3.1-8B (BERTScore 0.673); the best few-shot by Llama-3.1-8B (ROUGE-L 0.206, BERTScore 0.683). Completeness and fluency were similar between experts and models, while correctness and patient-centeredness favored human PCS.
- Abstract(参考訳): 大言語モデル(LLMs)は、患者とクリニックの会話から臨床要約を生成する上で、人間レベルのパフォーマンスに達する可能性をますます示している。
しかし、これらの要約は患者の好みや価値観、願望、関心事よりも、患者の生物学に焦点を当てることが多い。
患者中心のケアを実現するために,患者中心のサマリー(PCS)という,人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値をキャプチャし,臨床的有用性を確保するためのPCSを生成するフレームワークを開発することであり,この課題において,現在のオープンソース LLM が人間レベルのパフォーマンスを達成できるかどうかを評価することであった。
混合メソッドプロセスを使用しました。
英国における2つの患者・公衆参加グループ(10名, 臨床医8名)は, 臨床要約にどのような個人的・文脈的情報を含めるべきか, 臨床利用のためにどのように構成されるべきか, という半構造化インタビューに参加した。
8人の臨床医が、88の心房細動相談から金標準PCSを作成するためのガイドラインを提示した。
ガイドラインに沿ったプロンプトを洗練するために16の協議が行われた。
5つのオープンソースLCM(Llama-3.2-3B、Llama-3.1-8B、Mistral-8B、Gemma-3-4B、Qwen3-8B)は、ROUGE-L、BERTScore、定性的メトリクスで評価されたゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルティングのための要約を生成する。
患者は生活習慣、社会的支援、最近のストレス、ケアの価値観を強調した。
臨床医は、簡潔な機能、精神社会的、感情的な文脈を求めた。
最高のゼロショット性能はMistral-8B (ROUGE-L 0.189) とLlama-3.1-8B (BERTScore 0.673) で達成され、Llama-3.1-8B (ROUGE-L 0.206, BERTScore 0.683) による最少ショットである。
完全性と寛容性は専門家とモデルに似ており、正しさと患者中心性はヒトのPCSを好んだ。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - A dataset and benchmark for hospital course summarization with adapted large language models [4.091402760759184]
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。
臨床ノートと短い病院コースをカプセル化したMIMIC-IV-BHC(MIMIC-IV-BHC)を導入した。
臨床ノートを入力として,3つのオープンソースLSMと2つの独自LSMに対して,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
論文 参考訳(メタデータ) (2024-03-08T23:17:55Z) - Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。
我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。
提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文 参考訳(メタデータ) (2024-02-05T00:06:08Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。