Fugu-MT 論文翻訳(概要): FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence

論文の概要: FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence

arxiv url: http://arxiv.org/abs/2402.11456v1
Date: Sun, 18 Feb 2024 04:45:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:12:38.606731
Title: FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence
Title（参考訳）: FactPICO:医学的証拠の平易な要約のためのファクチュアリティ評価
Authors: Sebastian Antony Joseph, Lily Chen, Jan Trienes, Hannah Louisa G\"oke, Monika Coers, Wei Xu, Byron C Wallace, Junyi Jessy Li
Abstract要約: 本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。 3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
参考スコア（独自算出の注目度）: 48.72670312847365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Plain language summarization with LLMs can be useful for improving textual accessibility of technical content. But how factual are these summaries in a high-stakes domain like medicine? This paper presents FactPICO, a factuality benchmark for plain language summarization of medical texts describing randomized controlled trials (RCTs), which are the basis of evidence-based medicine and can directly inform patient treatment. FactPICO consists of 345 plain language summaries of RCT abstracts generated from three LLMs (i.e., GPT-4, Llama-2, and Alpaca), with fine-grained evaluation and natural language rationales from experts. We assess the factuality of critical elements of RCTs in those summaries: Populations, Interventions, Comparators, Outcomes (PICO), as well as the reported findings concerning these. We also evaluate the correctness of the extra information (e.g., explanations) added by LLMs. Using FactPICO, we benchmark a range of existing factuality metrics, including the newly devised ones based on LLMs. We find that plain language summarization of medical evidence is still challenging, especially when balancing between simplicity and factuality, and that existing metrics correlate poorly with expert judgments on the instance level.
Abstract（参考訳）: LLMを用いた平易な言語要約は、技術的コンテンツのテキストアクセシビリティを向上させるのに有用である。しかし、これらの要約は薬のような高リスク領域において、どの程度事実か? 本稿では,無作為化対照治験(rcts)を記述した医学文献の原文要約のための事実度ベンチマークであるfactpico(ファクトピコ)について述べる。 FactPICOは、3つのLCM(GPT-4、Llama-2、Alpaca)から生成された345のプレーン言語要約と、専門家によるきめ細かい評価と自然言語の有理性からなる。本研究は,これらの要約におけるrctの重要な要素である集団,介入,比較者,成果(pico)の事実性,およびそれらに関する報告結果を評価する。また,llmsに付加された追加情報(説明など)の正確性を評価する。 FactPICOを用いて, LLMをベースとした新たなファクトリティー指標を含む, 既存のファクトリティー指標をベンチマークする。医学的証拠の平易な言語要約は、特に単純さと事実性のバランスをとる場合、依然として困難であり、既存のメトリクスは、インスタンスレベルの専門家の判断とあまり相関しない。

関連論文リスト

Balancing Natural Language Processing Accuracy and Normalisation in Extracting Medical Insights [2.654416335526196]
本研究は,電子カルテからの情報抽出のためのNLP低スループットルールベース手法とLarge Language Models(LLMs)の比較分析を行った。本研究は, テキスト正規化の欠如と翻訳による情報損失の影響について検討しながら, 患者集団, 臨床所見, 処方薬を抽出し, 双方のアプローチを評価した。その結果、ルールに基づく手法は、特に年齢や性別の抽出において、情報検索タスクにおいて高い精度を提供することが示された。 LLMは、薬名認識に優れた適応性とスケーラビリティを提供する。
論文参考訳（メタデータ） (2025-11-19T18:51:45Z)
MedScore: Factuality Evaluation of Free-Form Medical Answers [54.722181966548895]
我々は,医学的回答を条件対応の有効な事実に分解する新しい手法であるMedScoreを提案する。本手法は,既存手法の最大3倍の有効事実を抽出する。
論文参考訳（メタデータ） (2025-05-24T01:23:09Z)
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation [3.8868752812726064]
そこで我々はPlainQAFactを紹介した。PlainFactは粒度の細かい人手によるデータセットに基づいて訓練されたフレームワークだ。 PlainQAFactは、まず事実のタイプを分類し、次に検索強化されたQAベースのスコアリング手法を用いて事実のタイプを評価する。
論文参考訳（メタデータ） (2025-03-11T20:59:53Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Assessing the Limitations of Large Language Models in Clinical Fact Decomposition [3.919419934122265]
FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録について,フルドキュメントの事実分解からなるデータセットである。臨床医によるレビューを含め,本評価では,4種類のLCMにおいて,事実分解の質に有意な変動がみられた。その結果、臨床テキストの事実検証を支援するためのLCM機能の改善の必要性が浮き彫りになった。
論文参考訳（メタデータ） (2024-12-17T00:07:05Z)
The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文参考訳（メタデータ） (2024-06-04T09:23:30Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。 LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文参考訳（メタデータ） (2023-12-22T13:14:38Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Exploring Optimal Granularity for Extractive Summarization of Unstructured Health Records: Analysis of the Largest Multi-Institutional Archive of Health Records in Japan [25.195233641408233]
「処分要約」は要約の有望な応用の1つである。要約が構造されていないソースからどのように生成されるべきかは、まだ不明である。本研究は,要約における最適粒度を同定することを目的とした。
論文参考訳（メタデータ） (2022-09-20T23:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。