論文の概要: PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models
- arxiv url: http://arxiv.org/abs/2603.05776v1
- Date: Fri, 06 Mar 2026 00:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.781419
- Title: PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models
- Title(参考訳): PVminerLLM:大規模言語モデルを用いた患者生成テキストからの患者音声の構造化抽出
- Authors: Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree,
- Abstract要約: 患者生成テキストには、患者の生きた経験、社会的状況、ケアにおけるエンゲージメントに関する重要な情報が含まれている。
これらの患者音声信号は、患者中心の研究や臨床品質改善における使用を制限し、構造化された形で利用されることは滅多にない。
患者音声の構造化抽出のためのベンチマークであるPVminerを導入し、教師付き微調整大言語モデルであるPVminerLLMを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation: Patient-generated text contains critical information about patients' lived experiences, social circumstances, and engagement in care, including factors that strongly influence adherence, care coordination, and health equity. However, these patient voice signals are rarely available in structured form, limiting their use in patient-centered outcomes research and clinical quality improvement. Reliable extraction of such information is therefore essential for understanding and addressing non-clinical drivers of health outcomes at scale. Results: We introduce PVminer, a benchmark for structured extraction of patient voice, and propose PVminerLLM, a supervised fine-tuned large language model tailored to this task. Across multiple datasets and model sizes, PVminerLLM substantially outperforms prompt-based baselines, achieving up to 83.82% F1 for Code prediction, 80.74% F1 for Sub-code prediction, and 87.03% F1 for evidence Span extraction. Notably, strong performance is achieved even with smaller models, demonstrating that reliable patient voice extraction is feasible without extreme model scale. These results enable scalable analysis of social and experiential signals embedded in patient-generated text. Availability and Implementation: Code, evaluation scripts, and trained LLMs will be released publicly. Annotated datasets will be made available upon request for research use. Keywords: Large Language Models, Supervised Fine-Tuning, Medical Annotation, Patient-Generated Text, Clinical NLP
- Abstract(参考訳): 動機づけ:患者生成テキストには、患者の生活経験、社会的状況、介護への関与に関する重要な情報が含まれている。
しかしながら、これらの患者音声信号は、患者中心の研究や臨床品質改善における使用を制限し、構造化された形で利用されることは滅多にない。
したがって、そのような情報の信頼性の高い抽出は、大規模な健康結果の非臨床ドライバーの理解と対処に不可欠である。
結果: 患者音声の構造化抽出のためのベンチマークであるPVminerを導入し, この課題に適した教師付き大規模言語モデルであるPVminerLLMを提案する。
複数のデータセットとモデルサイズにわたって、PVminerLLMはプロンプトベースベースラインを大幅に上回り、コード予測では83.82% F1、サブコード予測では80.74% F1、証拠Span抽出では87.03% F1に達する。
特に、より小さなモデルでも強い性能が得られ、信頼性の高い患者音声抽出が極端なモデルスケールなしで実現可能であることを示す。
これらの結果は、患者生成テキストに埋め込まれた社会的および経験的な信号のスケーラブルな分析を可能にする。
可用性と実装: コード、評価スクリプト、トレーニング済みのLLMが一般公開される。
アノテーション付きデータセットは、研究使用の要求に応じて利用可能になる。
キーワード:大規模言語モデル、改善された微調整、医療アノテーション、患者生成テキスト、臨床NLP
関連論文リスト
- PVminer: A Domain-Specific Tool to Detect the Patient Voice in Patient Generated Data [2.6791290096531455]
本稿では,患者音声をセキュアに構築するためのNLPフレームワークであるPVminerを紹介する。
PVminerは、患者固有のBERTエンコーダを統合するマルチラベル・マルチクラス予測タスクとしてPV検出を定式化する。
PVminerは階層的なタスクにまたがって強いパフォーマンスを達成し、バイオメディカルおよび臨床訓練済みのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-24T18:10:00Z) - Large Language Models for Patient Comments Multi-Label Classification [3.670008893193884]
本研究は,多ラベルテキスト分類(MLTC)におけるLLM(Large Language Models)の活用について検討する。
GPT-4 ターボは分類を行うために利用された。
プロンプトエンジニアリングフレームワークを使用することで、ゼロショット学習、インコンテキスト学習、チェーンオブ思考プロンプトを実験した。
論文 参考訳(メタデータ) (2024-10-31T00:29:52Z) - Dynamic Q&A of Clinical Documents with Large Language Models [3.021316686584699]
本研究は,臨床ノートにおける動的質問応答のための大規模言語モデル(LLM)を用いた自然言語インタフェースを提案する。
様々な埋め込みモデルと高度なLLMを利用する実験は、高い計算要求にもかかわらず、ウィザード・ヴィクナの優れた精度を示している。
論文 参考訳(メタデータ) (2024-01-19T14:50:22Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。