論文の概要: PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
- arxiv url: http://arxiv.org/abs/2503.08890v1
- Date: Tue, 11 Mar 2025 20:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:29.166332
- Title: PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
- Title(参考訳): PlainQAFact: バイオメディカル・プレインランゲージ・サマリ生成のための自動顔認証基準
- Authors: Zhiwen You, Yue Guo,
- Abstract要約: そこで我々はPlainQAFactを紹介した。PlainFactは粒度の細かい人手によるデータセットに基づいて訓練されたフレームワークだ。
PlainQAFactは、まず事実のタイプを分類し、次に検索強化されたQAベースのスコアリング手法を用いて事実のタイプを評価する。
- 参考スコア(独自算出の注目度): 3.8868752812726064
- License:
- Abstract: Hallucinated outputs from language models pose risks in the medical domain, especially for lay audiences making health-related decisions. Existing factuality evaluation methods, such as entailment- and question-answering-based (QA), struggle with plain language summary (PLS) generation due to elaborative explanation phenomenon, which introduces external content (e.g., definitions, background, examples) absent from the source document to enhance comprehension. To address this, we introduce PlainQAFact, a framework trained on a fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of both source-simplified and elaboratively explained sentences. PlainQAFact first classifies factuality type and then assesses factuality using a retrieval-augmented QA-based scoring method. Our approach is lightweight and computationally efficient. Empirical results show that existing factuality metrics fail to effectively evaluate factuality in PLS, especially for elaborative explanations, whereas PlainQAFact achieves state-of-the-art performance. We further analyze its effectiveness across external knowledge sources, answer extraction strategies, overlap measures, and document granularity levels, refining its overall factuality assessment.
- Abstract(参考訳): 言語モデルからの順応的なアウトプットは、医療分野、特に健康に関する決定を行う一般の聴衆にリスクをもたらす。
既存の事実性評価手法である包括的・質問応答に基づくQA(entailment- and question-anwering-based)では,外的内容(定義,背景,例)を導入し,理解を深める。
そこで本稿では,PlainQAFactを提案する。PlainQAFactは,微粒で人間に注釈を付けたデータセット上でトレーニングされたフレームワークで,ソースを単純化した文とエラボレーティブに説明された文の両方の事実性を評価する。
PlainQAFactは、まず事実のタイプを分類し、次に検索強化されたQAベースのスコアリング手法を用いて事実のタイプを評価する。
私たちのアプローチは軽量で計算的に効率的です。
実証実験の結果,PlainQAFactが最先端の性能を達成するのに対して,既存の事実度指標はPLSの事実度を効果的に評価できないことがわかった。
さらに, 外部知識源, 回答抽出戦略, 重複対策, および文書の粒度レベルを横断的に解析し, 全体的事実性評価を精査する。
関連論文リスト
- Towards Effective Extraction and Evaluation of Factual Claims [1.8262547855491458]
LLM(Large Language Models)が生成する長文コンテンツを事実チェックするための一般的な戦略は、独立して検証可能な単純なクレームを抽出することである。
本稿では,ファクトチェックの文脈におけるクレーム抽出と,このフレームワークを適用するための自動化された,スケーラブルで,かつレプリケート可能な手法を提案する。
また, LLMに基づくクレーム抽出手法であるCrimifyを導入し, 評価フレームワークにおける既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-15T16:58:05Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Improving Faithfulness of Abstractive Summarization by Controlling
Confounding Effect of Irrelevant Sentences [38.919090721583075]
事実整合性は、共同創設者として機能する入力テキストの無関係な部分によって引き起こされる可能性があることを示す。
そこで我々は,人間が記述した関連文を利用できる場合に利用することにより,そのような欠点を抑えるためのシンプルなマルチタスクモデルを設計する。
提案手法は,AnswerSumm citepfabbri 2021answersummデータセットの強いベースラインに対して,忠実度スコアを20%向上させる。
論文 参考訳(メタデータ) (2022-12-19T18:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。