論文の概要: PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization
- arxiv url: http://arxiv.org/abs/2503.08890v2
- Date: Sun, 07 Sep 2025 23:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.95521
- Title: PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization
- Title(参考訳): PlainQAFact: バイオメディカル・プレーン言語要約のための検索機能強化Factual Consistency Evaluation Metric
- Authors: Zhiwen You, Yue Guo,
- Abstract要約: 大きな言語モデルから得られた幻覚的アウトプットは、医療領域にリスクをもたらす。
そこで我々はPlainQAFactを紹介した。PlainFactは、人間に注釈を付けた詳細なデータセットに基づいてトレーニングされた、自動的な事実整合性評価指標である。
- 参考スコア(独自算出の注目度): 5.5899921245557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinated outputs from large language models (LLMs) pose risks in the medical domain, especially for lay audiences making health-related decisions. Existing automatic factual consistency evaluation methods, such as entailment- and question-answering (QA) -based, struggle with plain language summarization (PLS) due to elaborative explanation phenomenon, which introduces external content (e.g., definitions, background, examples) absent from the scientific abstract to enhance comprehension. To address this, we introduce PlainQAFact, an automatic factual consistency evaluation metric trained on a fine-grained, human-annotated dataset PlainFact, for evaluating factual consistency of both source-simplified and elaborately explained sentences. PlainQAFact first classifies sentence type, then applies a retrieval-augmented QA scoring method. Empirical results show that existing evaluation metrics fail to evaluate the factual consistency in PLS, especially for elaborative explanations, whereas PlainQAFact consistently outperforms them across all evaluation settings. We further analyze PlainQAFact's effectiveness across external knowledge sources, answer extraction strategies, answer overlap measures, and document granularity levels, refining its overall factual consistency assessment. Taken together, our work presents the first evaluation metric designed for PLS factual consistency evaluation, providing the community with both a robust benchmark and a practical tool to advance reliable and safe plain language communication in the medical domain. PlainQAFact and PlainFact are available at: https://github.com/zhiwenyou103/PlainQAFact
- Abstract(参考訳): 大規模言語モデル(LLMs)からのハロゲン化アウトプットは医療分野、特に健康に関する決定を行う一般の聴衆にリスクをもたらす。
科学的抽象概念から外的内容(例えば、定義、背景、例)を導入し、理解力を高めるために外的内容(例えば、定義、背景、例)を取り入れた実験的な説明現象により、包括的言語要約(PLS)に苦慮する、包括的質問応答(entailment- and question-answering)に基づく既存の事実整合性評価手法である。
そこで本研究では,PlainQAFactを提案する。このPlainQAFactは,細粒度で人間による注釈付きデータセット上でトレーニングされた,ソースを単純化した文と精巧に説明された文の両方の事実整合性を評価するための,自動的事実整合性評価指標である。
PlainQAFactは、まず文タイプを分類し、次に検索拡張されたQAスコア法を適用する。
実験の結果,PlainQAFact は全ての評価設定において常に優れており,既存の評価指標はPLSの事実整合性を評価するのに失敗していることがわかった。
さらに、外部知識源、回答抽出戦略、回答重複対策、文書の粒度レベルなどにわたるPlainQAFactの有効性を分析し、その全体的事実整合性評価を精査する。
本研究は,PLSの実践的整合性評価のための最初の評価基準を提示し,医療領域における信頼性と安全な平易なコミュニケーションを向上するための,堅牢なベンチマークと実用的なツールをコミュニティに提供する。
PlainQAFact と PlainFact は https://github.com/zhiwenyou103/PlainQAFact
関連論文リスト
- Noiser: Bounded Input Perturbations for Attributing Large Language Models [17.82404809465846]
本稿では,各入力埋め込みに有界雑音を課す摂動型FA法であるノイズ器を紹介する。
ノイズは、信頼度と応答性の両方の観点から、既存の勾配、注意に基づく、摂動に基づくFA法を一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-04-03T10:59:37Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Improving Faithfulness of Abstractive Summarization by Controlling
Confounding Effect of Irrelevant Sentences [38.919090721583075]
事実整合性は、共同創設者として機能する入力テキストの無関係な部分によって引き起こされる可能性があることを示す。
そこで我々は,人間が記述した関連文を利用できる場合に利用することにより,そのような欠点を抑えるためのシンプルなマルチタスクモデルを設計する。
提案手法は,AnswerSumm citepfabbri 2021answersummデータセットの強いベースラインに対して,忠実度スコアを20%向上させる。
論文 参考訳(メタデータ) (2022-12-19T18:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。