論文の概要: VeriFact: Verifying Facts in LLM-Generated Clinical Text with Electronic Health Records
- arxiv url: http://arxiv.org/abs/2501.16672v1
- Date: Tue, 28 Jan 2025 03:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:43:04.383778
- Title: VeriFact: Verifying Facts in LLM-Generated Clinical Text with Electronic Health Records
- Title(参考訳): VeriFact: 電子カルテを用いたLCM生成臨床テキストにおける欠陥の検証
- Authors: Philip Chung, Akshay Swaminathan, Alex J. Goodell, Yeasul Kim, S. Momsen Reincke, Lichy Han, Ben Deverett, Mohammad Amin Sadeghi, Abdel-Badih Ariss, Marc Ghanem, David Seong, Andrew A. Lee, Caitlin E. Coombes, Brad Bradshaw, Mahir A. Sufian, Hyo Jung Hong, Teresa P. Nguyen, Mohammad R. Rasouli, Komal Kamra, Mark A. Burbridge, James C. McAvoy, Roya Saffary, Stephen P. Ma, Dev Dash, James Xie, Ellen Y. Wang, Clifford A. Schmiesing, Nigam Shah, Nima Aghaeepour,
- Abstract要約: VeriFact(ヴェリファクト)は、臨床医学における大規模言語モデル(LLM)のファクトチェックのための人工知能システムである。
略式病院講座の物語を、患者の EHR 臨床ノートによってそれぞれの声明が支持されているかどうかに関する臨床注釈付き簡易な記述に分解する。
平均的なヒト臨床臨床の基礎的事実に対して、最大92.7%の合意を達成している。
- 参考スコア(独自算出の注目度): 2.8078482678056527
- License:
- Abstract: Methods to ensure factual accuracy of text generated by large language models (LLM) in clinical medicine are lacking. VeriFact is an artificial intelligence system that combines retrieval-augmented generation and LLM-as-a-Judge to verify whether LLM-generated text is factually supported by a patient's medical history based on their electronic health record (EHR). To evaluate this system, we introduce VeriFact-BHC, a new dataset that decomposes Brief Hospital Course narratives from discharge summaries into a set of simple statements with clinician annotations for whether each statement is supported by the patient's EHR clinical notes. Whereas highest agreement between clinicians was 88.5%, VeriFact achieves up to 92.7% agreement when compared to a denoised and adjudicated average human clinican ground truth, suggesting that VeriFact exceeds the average clinician's ability to fact-check text against a patient's medical record. VeriFact may accelerate the development of LLM-based EHR applications by removing current evaluation bottlenecks.
- Abstract(参考訳): 臨床医学における大規模言語モデル(LLM)によるテキストの事実的正確性を保証する方法が欠落している。
VeriFactは、検索強化世代とLLM-as-a-Judgeを組み合わせた人工知能システムで、患者の電子健康記録(EHR)に基づいて、LLM生成テキストが実際に患者の医療履歴によってサポートされているかどうかを検証する。
本システムを評価するために,本システムでは,患者のERH臨床ノートで各論文が支持されているかどうかを記した簡易な注釈付きステートメントのセットに,ブリーフ病院講座の物語を要約から分解する新たなデータセットであるVeriFact-BHCを導入する。
臨床医間の合意が88.5%であるのに対して、VeriFactは平均的なヒト臨床医の真実を否定し、偏見を定めている場合と比較して92.7%の合意を達成しており、VeriFactは患者の医療記録に対して、平均的な臨床医のテキストをファクトチェックする能力を上回ることを示唆している。
VeriFact は現在の評価ボトルネックを取り除くことで LLM ベースの EHR アプリケーションの開発を加速させることができる。
関連論文リスト
- SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Performant ASR Models for Medical Entities in Accented Speech [0.9346027495459037]
我々は、93のアフリカアクセントの英語臨床データセットを用いて、複数のASRモデルを厳格に評価した。
分析の結果, 単語誤り率 (WER) が低いモデルではあるものの, 臨床的実体の誤差は高く, 患者の安全性に重大なリスクが生じる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-18T08:19:48Z) - Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。
我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。
提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文 参考訳(メタデータ) (2024-02-05T00:06:08Z) - Enhancing Health Data Interoperability with Large Language Models: A
FHIR Study [8.918194175207702]
本研究では,医療データの相互運用性を高めるための大規模言語モデル(LLM)の能力について検討した。
臨床テキストの3,671個のスニペットを用いて, LLMは多段階の自然言語処理と人間のキャリブレーション処理を合理化するだけでなく, 人間のアノテーションと比較した場合の精度を90%以上向上することを示した。
論文 参考訳(メタデータ) (2023-09-19T20:09:35Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。