論文の概要: Assessing the Quality of AI-Generated Clinical Notes: A Validated Evaluation of a Large Language Model Scribe
- arxiv url: http://arxiv.org/abs/2505.17047v1
- Date: Thu, 15 May 2025 16:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.399814
- Title: Assessing the Quality of AI-Generated Clinical Notes: A Validated Evaluation of a Large Language Model Scribe
- Title(参考訳): AI生成臨床ノートの品質評価:大規模言語モデルの検証評価
- Authors: Erin Palm, Astrit Manikantan, Mark E. Pepin, Herprit Mahal, Srikanth Subramanya Belwadi,
- Abstract要約: 本研究は,大言語モデル(LLM)が生成した臨床成績と,音声記録による臨床経験に基づくフィールドエキスパートの成績を比較検討した。
物理文書品質測定器(PDQI9)の定量測定は、音質を測定するためのフレームワークを提供した。
金の紙幣は5点中4.25点、アンビエント紙幣は5点中4.20点だった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In medical practices across the United States, physicians have begun implementing generative artificial intelligence (AI) tools to perform the function of scribes in order to reduce the burden of documenting clinical encounters. Despite their widespread use, no established methods exist to gauge the quality of AI scribes. To address this gap, we developed a blinded study comparing the relative performance of large language model (LLM) generated clinical notes with those from field experts based on audio-recorded clinical encounters. Quantitative metrics from the Physician Documentation Quality Instrument (PDQI9) provided a framework to measure note quality, which we adapted to assess relative performance of AI generated notes. Clinical experts spanning 5 medical specialties used the PDQI9 tool to evaluate specialist-drafted Gold notes and LLM authored Ambient notes. Two evaluators from each specialty scored notes drafted from a total of 97 patient visits. We found uniformly high inter rater agreement (RWG greater than 0.7) between evaluators in general medicine, orthopedics, and obstetrics and gynecology, and moderate (RWG 0.5 to 0.7) to high inter rater agreement in pediatrics and cardiology. We found a modest yet significant difference in the overall note quality, wherein Gold notes achieved a score of 4.25 out of 5 and Ambient notes scored 4.20 out of 5 (p = 0.04). Our findings support the use of the PDQI9 instrument as a practical method to gauge the quality of LLM authored notes, as compared to human-authored notes.
- Abstract(参考訳): 米国全体の医療実践において、医師は、臨床遭遇の文書化の負担を軽減するために、書記者の機能を実行するために、生成人工知能(AI)ツールの実装を開始している。
広く使われているにもかかわらず、AI書式の品質を評価するための確立された方法はない。
このギャップに対処するため,大言語モデル(LLM)が生成した臨床成績と,音声記録による臨床経験に基づく現場専門家の成績を比較検討した。
The Physician Documentation Quality Instrument (PDQI9) の定量測定は,AI生成した音符の相対的性能を評価するために,音符品質を測定するためのフレームワークを提供した。
5つの医療専門分野にまたがる臨床専門家は、PDQI9ツールを使用して専門家が作成したゴールドノートとLLMが作成したアンビエントノートを評価した。
各専門職の2人の評価官は、合計97回の患者訪問から起草したメモを採点した。
一般医学, 整形外科, 産婦人科における評価者と, 小児科におけるハイインターレーサ契約(RWG 0.5~0.7)と, 小児科におけるハイインターレーサ契約(RWG 0.5~0.7)との間には, 一様に高いインターレーサ契約(RWG以上)が認められた。
その結果,ゴールドノートは5点中4.25点,アンビエントノートは5点中4.20点(p = 0.04点)を達成した。
本研究は, PDQI9 を用いて, LLM 音符の品質を人手による音符と比較する実践的手法として活用することを支援する。
関連論文リスト
- AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Improving Clinical Documentation with AI: A Comparative Study of Sporo AI Scribe and GPT-4o mini [0.0]
Sporo HealthのAI書式はOpenAIのGPT-4o Miniに対して評価された。
結果から,スポロAIはGPT-4o Miniを一貫して上回り,リコール率,精度,F1スコア全体を達成した。
論文 参考訳(メタデータ) (2024-10-20T22:48:40Z) - Enhancing Clinical Efficiency through LLM: Discharge Note Generation for Cardiac Patients [1.379398224469229]
本研究は、特に心臓病患者において、手動で放電ノートを作成する際の非効率性と不正確性について論じる。
本研究は,大規模言語モデル(LLM)の文書化プロセスの向上能力を評価する。
評価された様々なモデルの中で、Mistral-7Bは正確に放電音を発生させることで識別された。
論文 参考訳(メタデータ) (2024-04-08T01:55:28Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Impact of Large Language Model Assistance on Patients Reading Clinical Notes: A Mixed-Methods Study [46.5728291706842]
臨床記録をより読みやすくするために,大言語モデル(LLM)を用いた患者対応ツールを開発した。
乳がんの既往歴のある患者から寄贈された臨床記録と臨床医からの合成ノートを用いて,本ツールの試験を行った。
論文 参考訳(メタデータ) (2024-01-17T23:14:52Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。