論文の概要: FactPICO: Factuality Evaluation for Plain Language Summarization of
Medical Evidence
- arxiv url: http://arxiv.org/abs/2402.11456v1
- Date: Sun, 18 Feb 2024 04:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:12:38.606731
- Title: FactPICO: Factuality Evaluation for Plain Language Summarization of
Medical Evidence
- Title(参考訳): FactPICO:医学的証拠の平易な要約のためのファクチュアリティ評価
- Authors: Sebastian Antony Joseph, Lily Chen, Jan Trienes, Hannah Louisa G\"oke,
Monika Coers, Wei Xu, Byron C Wallace, Junyi Jessy Li
- Abstract要約: 本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
- 参考スコア(独自算出の注目度): 48.72670312847365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plain language summarization with LLMs can be useful for improving textual
accessibility of technical content. But how factual are these summaries in a
high-stakes domain like medicine? This paper presents FactPICO, a factuality
benchmark for plain language summarization of medical texts describing
randomized controlled trials (RCTs), which are the basis of evidence-based
medicine and can directly inform patient treatment. FactPICO consists of 345
plain language summaries of RCT abstracts generated from three LLMs (i.e.,
GPT-4, Llama-2, and Alpaca), with fine-grained evaluation and natural language
rationales from experts. We assess the factuality of critical elements of RCTs
in those summaries: Populations, Interventions, Comparators, Outcomes (PICO),
as well as the reported findings concerning these. We also evaluate the
correctness of the extra information (e.g., explanations) added by LLMs. Using
FactPICO, we benchmark a range of existing factuality metrics, including the
newly devised ones based on LLMs. We find that plain language summarization of
medical evidence is still challenging, especially when balancing between
simplicity and factuality, and that existing metrics correlate poorly with
expert judgments on the instance level.
- Abstract(参考訳): LLMを用いた平易な言語要約は、技術的コンテンツのテキストアクセシビリティを向上させるのに有用である。
しかし、これらの要約は薬のような高リスク領域において、どの程度事実か?
本稿では,無作為化対照治験(rcts)を記述した医学文献の原文要約のための事実度ベンチマークであるfactpico(ファクトピコ)について述べる。
FactPICOは、3つのLCM(GPT-4、Llama-2、Alpaca)から生成された345のプレーン言語要約と、専門家によるきめ細かい評価と自然言語の有理性からなる。
本研究は,これらの要約におけるrctの重要な要素である集団,介入,比較者,成果(pico)の事実性,およびそれらに関する報告結果を評価する。
また,llmsに付加された追加情報(説明など)の正確性を評価する。
FactPICOを用いて, LLMをベースとした新たなファクトリティー指標を含む, 既存のファクトリティー指標をベンチマークする。
医学的証拠の平易な言語要約は、特に単純さと事実性のバランスをとる場合、依然として困難であり、既存のメトリクスは、インスタンスレベルの専門家の判断とあまり相関しない。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Extrinsically-Focused Evaluation of Omissions in Medical Summarization [10.02553223045504]
MED-OMITは医用要約のための新しい省略ベンチマークである。
医師と患者の会話と生成された要約から、MED-OMITはチャットを一連の事実に分類し、要約から省略されるものを特定する。
我々は,MED-OMITを患者と医師の会話の公開データセットで評価し,MED-OMITが他の指標よりも欠落を捉えていることを確認した。
論文 参考訳(メタデータ) (2023-11-14T16:46:15Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical
Text Summarization [8.58821737720852]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Exploring Optimal Granularity for Extractive Summarization of
Unstructured Health Records: Analysis of the Largest Multi-Institutional
Archive of Health Records in Japan [25.195233641408233]
「処分要約」は要約の有望な応用の1つである。
要約が構造されていないソースからどのように生成されるべきかは、まだ不明である。
本研究は,要約における最適粒度を同定することを目的とした。
論文 参考訳(メタデータ) (2022-09-20T23:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。