論文の概要: Assessing the Limitations of Large Language Models in Clinical Fact Decomposition
- arxiv url: http://arxiv.org/abs/2412.12422v1
- Date: Tue, 17 Dec 2024 00:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:45.689713
- Title: Assessing the Limitations of Large Language Models in Clinical Fact Decomposition
- Title(参考訳): 臨床現場における大規模言語モデルの限界評価
- Authors: Monica Munnangi, Akshay Swaminathan, Jason Alan Fries, Jenelle Jindal, Sanjana Narayanan, Ivan Lopez, Lucia Tu, Philip Chung, Jesutofunmi A. Omiye, Mehr Kashyap, Nigam Shah,
- Abstract要約: FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録について,フルドキュメントの事実分解からなるデータセットである。
臨床医によるレビューを含め,本評価では,4種類のLCMにおいて,事実分解の質に有意な変動がみられた。
その結果、臨床テキストの事実検証を支援するためのLCM機能の改善の必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 3.919419934122265
- License:
- Abstract: Verifying factual claims is critical for using large language models (LLMs) in healthcare. Recent work has proposed fact decomposition, which uses LLMs to rewrite source text into concise sentences conveying a single piece of information, as an approach for fine-grained fact verification. Clinical documentation poses unique challenges for fact decomposition due to dense terminology and diverse note types. To explore these challenges, we present FactEHR, a dataset consisting of full document fact decompositions for 2,168 clinical notes spanning four types from three hospital systems. Our evaluation, including review by clinicians, highlights significant variability in the quality of fact decomposition for four commonly used LLMs, with some LLMs generating 2.6x more facts per sentence than others. The results underscore the need for better LLM capabilities to support factual verification in clinical text. To facilitate future research in this direction, we plan to release our code at \url{https://github.com/som-shahlab/factehr}.
- Abstract(参考訳): 医療で大規模言語モデル(LLM)を使用するためには、事実的クレームの検証が不可欠である。
近年の研究では,一片の情報を伝達する簡潔な文にLLMを書き換える事実分解法が提案されている。
臨床文書は、密集した用語と多様なノートタイプのために、事実の分解に固有の課題を提起する。
これらの課題を探求するために,3つの病院システムから4つのタイプにまたがる2,168の臨床ノートに対して,フルドキュメントの事実分解からなるデータセットであるFactEHRを提案する。
臨床医によるレビューを含む評価では,4つの LLM の事実分解の質に有意な変動がみられ,いくつかの LLM は1文あたり2.6倍の事実を生成する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
この方向への今後の研究を促進するため、私たちはコードを \url{https://github.com/som-shahlab/factehr} でリリースする予定です。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints [8.547853819087043]
複数のプロンプト戦略を用いて医学的誤りを識別・修正する一般LSMの能力を評価する。
より小さな微調整モデルからエラースパン予測を2つの方法で組み込むことを提案する。
8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。
論文 参考訳(メタデータ) (2024-05-28T10:20:29Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - From RAGs to riches: Using large language models to write documents for
clinical trials [0.0]
大言語モデル(LLM)は、臨床試験文書の最初のバージョンを迅速に生成する可能性を提供する。
本稿では, 1 つの文書, 臨床試験プロトコルの生成における LLM の評価について報告する。
性能向上のために、我々は検索拡張生成(RAG)を用いて、正確な最新情報を持つLLMを誘導した。
論文 参考訳(メタデータ) (2024-02-26T08:59:05Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。