論文の概要: FactEHR: A Dataset for Evaluating Factuality in Clinical Notes Using LLMs
- arxiv url: http://arxiv.org/abs/2412.12422v2
- Date: Tue, 05 Aug 2025 19:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.725786
- Title: FactEHR: A Dataset for Evaluating Factuality in Clinical Notes Using LLMs
- Title(参考訳): FactEHR : LLMを用いた臨床用ノートの虚偽性評価データセット
- Authors: Monica Munnangi, Akshay Swaminathan, Jason Alan Fries, Jenelle Jindal, Sanjana Narayanan, Ivan Lopez, Lucia Tu, Philip Chung, Jesutofunmi A. Omiye, Mehr Kashyap, Nigam Shah,
- Abstract要約: FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録の文書的事実分解からなるNLIデータセットである。
我々は, LLMの細部評価から定性解析まで, 異なる軸上の生成事実を評価する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 3.919419934122265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verifying and attributing factual claims is essential for the safe and effective use of large language models (LLMs) in healthcare. A core component of factuality evaluation is fact decomposition, the process of breaking down complex clinical statements into fine-grained atomic facts for verification. Recent work has proposed fact decomposition, which uses LLMs to rewrite source text into concise sentences conveying a single piece of information, to facilitate fine-grained fact verification. However, clinical documentation poses unique challenges for fact decomposition due to dense terminology and diverse note types and remains understudied. To address this gap and explore these challenges, we present FactEHR, an NLI dataset consisting of document fact decompositions for 2,168 clinical notes spanning four types from three hospital systems, resulting in 987,266 entailment pairs. We assess the generated facts on different axes, from entailment evaluation of LLMs to a qualitative analysis. Our evaluation, including review by the clinicians, reveals substantial variability in LLM performance for fact decomposition. For example, Gemini-1.5-Flash consistently generates relevant and accurate facts, while Llama-3 8B produces fewer and less consistent outputs. The results underscore the need for better LLM capabilities to support factual verification in clinical text.
- Abstract(参考訳): 医療における大規模言語モデル(LLM)の安全かつ効果的な利用には、事実的主張の検証と帰結が不可欠である。
事実性評価のコアコンポーネントは事実分解であり、複雑な臨床論文を詳細な原子事実に分解して検証するプロセスである。
近年の研究では、LLMを用いて1つの情報を伝達する簡潔な文にソースコードを書き換え、きめ細かい事実検証を容易にする事実分解法が提案されている。
しかしながら、臨床文書は、密集した用語と多様なノートタイプにより、事実の分解に固有の課題を提起し、現在も調査が続けられている。
このギャップに対処し,これらの課題を探求するために,3つの病院システムから4つのタイプにまたがる2,168の臨床記録を文書的事実分解したNLIデータセットであるFactEHRを提案する。
我々は, LLMの細部評価から定性解析まで, 異なる軸上の生成事実を評価する。
臨床医による検討を含む評価の結果, 事実分解におけるLLM性能の有意な変動が明らかとなった。
例えば、Gemini-1.5-Flashは一貫して関連性があり正確な事実を生成する一方、Llama-3 8Bは一貫性の低い出力を生成する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
関連論文リスト
- Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [4.003209132872364]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - MedScore: Factuality Evaluation of Free-Form Medical Answers [54.722181966548895]
我々は,医学的回答を条件対応の有効な事実に分解する新しい手法であるMedScoreを提案する。
本手法は,既存手法の最大3倍の有効事実を抽出する。
論文 参考訳(メタデータ) (2025-05-24T01:23:09Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints [8.547853819087043]
複数のプロンプト戦略を用いて医学的誤りを識別・修正する一般LSMの能力を評価する。
より小さな微調整モデルからエラースパン予測を2つの方法で組み込むことを提案する。
8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。
論文 参考訳(メタデータ) (2024-05-28T10:20:29Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - From RAGs to riches: Using large language models to write documents for
clinical trials [0.0]
大言語モデル(LLM)は、臨床試験文書の最初のバージョンを迅速に生成する可能性を提供する。
本稿では, 1 つの文書, 臨床試験プロトコルの生成における LLM の評価について報告する。
性能向上のために、我々は検索拡張生成(RAG)を用いて、正確な最新情報を持つLLMを誘導した。
論文 参考訳(メタデータ) (2024-02-26T08:59:05Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。