論文の概要: Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care
- arxiv url: http://arxiv.org/abs/2510.05410v1
- Date: Mon, 06 Oct 2025 22:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.005721
- Title: Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care
- Title(参考訳): 臨床専門知識を持つ言語モデルの調整:心不全看護文書作成のためのDPO
- Authors: Junyi Fan, Li Sun, Negin Ashrafi, Kamiar Alaei, Maryam Pishgar,
- Abstract要約: 本研究では、8,838の心不全看護ノートを用いて、局所展開可能な言語モデルであるMistral-7Bを適応するために、直接優先最適化を適用する。
BLEU、ROUGE、BERTScore、Perplexity、専門家による質的な評価は、DPOがドキュメントの品質を著しく向上することを示している。
- 参考スコア(独自算出の注目度): 4.108872110731109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nursing documentation in intensive care units (ICUs) provides essential clinical intelligence but often suffers from inconsistent terminology, informal styles, and lack of standardization, challenges that are particularly critical in heart failure care. This study applies Direct Preference Optimization (DPO) to adapt Mistral-7B, a locally deployable language model, using 8,838 heart failure nursing notes from the MIMIC-III database and 21,210 preference pairs derived from expert-verified GPT outputs, model generations, and original notes. Evaluation across BLEU, ROUGE, BERTScore, Perplexity, and expert qualitative assessments demonstrates that DPO markedly enhances documentation quality. Specifically, BLEU increased by 84% (0.173 to 0.318), BERTScore improved by 7.6% (0.828 to 0.891), and expert ratings rose across accuracy (+14.4 points), completeness (+14.5 points), logical consistency (+14.1 points), readability (+11.1 points), and structural clarity (+6.0 points). These results indicate that DPO can align lightweight clinical language models with expert standards, supporting privacy-preserving, AI-assisted documentation within electronic health record systems to reduce administrative burden and improve ICU patient safety.
- Abstract(参考訳): 集中治療単位(ICU)における看護文書は、不可欠な臨床知性を提供するが、しばしば一貫性のない用語、非公式なスタイル、標準化の欠如、特に心不全ケアにおいて重要な課題に悩まされる。
本研究は,MIMIC-IIIデータベースから8,838個の心不全看護ノートと,専門家が検証したGPT出力,モデル生成,オリジナルノートから得られた21,210個の選好ペアを用いて,ローカルにデプロイ可能な言語モデルであるMistral-7Bを適応するための直接選好最適化(DPO)を適用した。
BLEU、ROUGE、BERTScore、Perplexity、専門家による質的な評価は、DPOがドキュメントの品質を著しく向上することを示している。
具体的には、BLEUは84%(0.173から0.318)、BERTScoreは7.6%(0.828から0.891)、専門家評価は精度(+14.4ポイント)、完全性(+14.5ポイント)、論理的一貫性(+14.1ポイント)、可読性(+11.1ポイント)、構造的明度(+6.0ポイント)に及んだ。
これらの結果は、DPOが軽量な臨床言語モデルを専門家の基準と整合させ、プライバシ保護、電子健康記録システム内のAI支援ドキュメンテーションをサポートし、管理上の負担を軽減し、ICU患者の安全性を向上させることを示唆している。
関連論文リスト
- Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines [1.9615061725959186]
本稿では,Large Language Models (LLMs) を用いたNICE (National Institute for Health and Care Excellence) 臨床ガイドラインを検索するための検索型生成システムの開発と評価について述べる。
このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。
平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
論文 参考訳(メタデータ) (2025-10-03T12:57:13Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation [0.0]
Llama 3.2 1Bモデルを用いて,プライバシ保護・オンデバイス医療転写システムの開発と評価を行った。
このモデルは、完全にブラウザ内で完全なデータ主権を維持しながら、医療転写から構造化された医療メモを生成することができる。
論文 参考訳(メタデータ) (2025-07-03T01:51:49Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Assessing the Quality of AI-Generated Clinical Notes: A Validated Evaluation of a Large Language Model Scribe [0.0]
本研究は,大言語モデル(LLM)が生成した臨床成績と,音声記録による臨床経験に基づくフィールドエキスパートの成績を比較検討した。
物理文書品質測定器(PDQI9)の定量測定は、音質を測定するためのフレームワークを提供した。
金の紙幣は5点中4.25点、アンビエント紙幣は5点中4.20点だった。
論文 参考訳(メタデータ) (2025-05-15T16:14:53Z) - A Multi-Phase Analysis of Blood Culture Stewardship: Machine Learning Prediction, Expert Recommendation Assessment, and LLM Automation [2.25639842999394]
血の文化は、しばしば明確な正当化なしに過度に秩序づけられる。
135483 救急部門 (ED) の血液培養命令について検討し,細菌性貧血のリスクを予測する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2025-04-09T21:12:29Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。