論文の概要: FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence
- arxiv url: http://arxiv.org/abs/2402.11456v2
- Date: Wed, 5 Jun 2024 01:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:11:46.045363
- Title: FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence
- Title(参考訳): FactPICO:医学的証拠の平易な要約のためのファクチュアリティ評価
- Authors: Sebastian Antony Joseph, Lily Chen, Jan Trienes, Hannah Louisa Göke, Monika Coers, Wei Xu, Byron C Wallace, Junyi Jessy Li,
- Abstract要約: 本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
- 参考スコア(独自算出の注目度): 46.71469172542448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plain language summarization with LLMs can be useful for improving textual accessibility of technical content. But how factual are these summaries in a high-stakes domain like medicine? This paper presents FactPICO, a factuality benchmark for plain language summarization of medical texts describing randomized controlled trials (RCTs), which are the basis of evidence-based medicine and can directly inform patient treatment. FactPICO consists of 345 plain language summaries of RCT abstracts generated from three LLMs (i.e., GPT-4, Llama-2, and Alpaca), with fine-grained evaluation and natural language rationales from experts. We assess the factuality of critical elements of RCTs in those summaries: Populations, Interventions, Comparators, Outcomes (PICO), as well as the reported findings concerning these. We also evaluate the correctness of the extra information (e.g., explanations) added by LLMs. Using FactPICO, we benchmark a range of existing factuality metrics, including the newly devised ones based on LLMs. We find that plain language summarization of medical evidence is still challenging, especially when balancing between simplicity and factuality, and that existing metrics correlate poorly with expert judgments on the instance level.
- Abstract(参考訳): LLMを用いた平易な言語要約は、技術的コンテンツのテキストアクセシビリティを向上させるのに有用である。
しかし、これらの要約は、医学のような高い領域における現実的なものなのだろうか?
本稿では, ランダム化対照試験(RCT)を記述した医療用テキストの非言語要約のための実例ベンチマークであるFactPICOについて述べる。
FactPICOは、3つのLCM(GPT-4、Llama-2、Alpaca)から生成された345のプレーン言語要約と、専門家によるきめ細かい評価と自然言語の有理性からなる。
人口,介入,コンパレータ,アウトカム(PICO),および報告されたこれらのサマリーにおけるRTTの重要要素の事実について検討した。
また,LLMが付加した余分な情報(例:説明)の正確性も評価した。
FactPICOを用いて, LLMをベースとした新たなファクトリティー指標を含む, 既存のファクトリティー指標をベンチマークする。
医学的証拠の平易な言語要約は、特に単純さと事実性のバランスをとる場合、依然として困難であり、既存のメトリクスは、インスタンスレベルの専門家の判断とあまり相関しない。
関連論文リスト
- The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。
北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。
本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文 参考訳(メタデータ) (2024-06-04T09:23:30Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Exploring Optimal Granularity for Extractive Summarization of
Unstructured Health Records: Analysis of the Largest Multi-Institutional
Archive of Health Records in Japan [25.195233641408233]
「処分要約」は要約の有望な応用の1つである。
要約が構造されていないソースからどのように生成されるべきかは、まだ不明である。
本研究は,要約における最適粒度を同定することを目的とした。
論文 参考訳(メタデータ) (2022-09-20T23:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。