論文の概要: PCoA: A New Benchmark for Medical Aspect-Based Summarization With Phrase-Level Context Attribution
- arxiv url: http://arxiv.org/abs/2601.03418v1
- Date: Tue, 06 Jan 2026 21:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.074572
- Title: PCoA: A New Benchmark for Medical Aspect-Based Summarization With Phrase-Level Context Attribution
- Title(参考訳): PCoA:Phrase-Levelコンテキスト属性を用いた医学的アスペクトに基づく要約のための新しいベンチマーク
- Authors: Bohao Chu, Sameh Frihat, Tabea M. G. Pakull, Hendrik Damm, Meijie Li, Ula Muhabbek, Georg Lodde, Norbert Fuhr,
- Abstract要約: PCoA(PCoA)は、医学的側面に基づく要約のための専門家によるベンチマークである。
本稿では,生成した要約文,引用文,コントリビュータ句の質を独立に評価する,きめ細かな非結合評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.4248535198162013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verifying system-generated summaries remains challenging, as effective verification requires precise attribution to the source context, which is especially crucial in high-stakes medical domains. To address this challenge, we introduce PCoA, an expert-annotated benchmark for medical aspect-based summarization with phrase-level context attribution. PCoA aligns each aspect-based summary with its supporting contextual sentences and contributory phrases within them. We further propose a fine-grained, decoupled evaluation framework that independently assesses the quality of generated summaries, citations, and contributory phrases. Through extensive experiments, we validate the quality and consistency of the PCoA dataset and benchmark several large language models on the proposed task. Experimental results demonstrate that PCoA provides a reliable benchmark for evaluating system-generated summaries with phrase-level context attribution. Furthermore, comparative experiments show that explicitly identifying relevant sentences and contributory phrases before summarization can improve overall quality. The data and code are available at https://github.com/chubohao/PCoA.
- Abstract(参考訳): システム生成サマリーの検証は依然として困難であり、効果的な検証にはソースコンテキストへの正確な属性が必要である。
この課題に対処するため、PCoAは、フレーズレベルのコンテキスト属性を持つ医療アスペクトベースの要約のための専門家によるベンチマークである。
PCoAは、各アスペクトベースの要約を、そのサポートされた文脈文とそれらの中のコントリビュータフレーズと整合させる。
さらに,生成した要約文,引用文,コントリビュータ句の質を独立に評価する,きめ細かな非結合評価フレームワークを提案する。
大規模な実験を通じて,PCoAデータセットの品質と一貫性を検証し,提案課題に対する大規模言語モデルのベンチマークを行う。
実験結果から,PCoAはフレーズレベルのコンテクスト属性を持つシステム生成要約を評価するための信頼性の高いベンチマークを提供することが示された。
さらに、比較実験により、要約の前に関連文とコントリビュータ句を明確に識別することで、全体的な品質が向上することが示された。
データとコードはhttps://github.com/chubohao/PCoA.com/で入手できる。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - TracSum: A New Benchmark for Aspect-Based Summarization with Sentence-Level Traceability in Medical Domain [1.5732353205551508]
我々は、トレース可能なアスペクトベースの要約のための新しいベンチマークであるTracSumを紹介する。
生成された要約は文レベルの引用と組み合わせられ、ユーザが元のコンテキストに遡ることができる。
TracSumは、トレース可能なアスペクトベースの要約タスクの効果的なベンチマークとして機能することを示す。
論文 参考訳(メタデータ) (2025-08-19T12:57:45Z) - Contextual Embedding-based Clustering to Identify Topics for Healthcare Service Improvement [3.9726806016869936]
本研究では,米国ウィスコンシン州の医療システムから収集した439件のアンケート結果から,意味のあるトピックを抽出するための教師なし手法について検討した。
キーワードに基づくフィルタリング手法を,ドメイン固有辞書を用いた苦情関連フィードバックの分離に適用した。
データが不足していて、短文からなるコヒーレンスと解釈可能性を改善するため、kBERTを提案する。
論文 参考訳(メタデータ) (2025-04-18T20:38:24Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization [5.5899921245557]
大きな言語モデルから得られた幻覚的アウトプットは、医療領域にリスクをもたらす。
そこで我々はPlainQAFactを紹介した。PlainFactは、人間に注釈を付けた詳細なデータセットに基づいてトレーニングされた、自動的な事実整合性評価指標である。
論文 参考訳(メタデータ) (2025-03-11T20:59:53Z) - QAPyramid: Fine-grained Evaluation of Content Selection for Text Summarization [62.809455597778616]
本稿ではQAPyramidを提案する。QA-SRLフレームワークにより,各参照要約をよりきめ細かな問合せ対に分解する。
この結果から,QAPyramidはより体系的かつきめ細かなコンテンツ選択評価を提供すると同時に,専門家のアノテーションを必要とせず,アノテータ間の高合意を維持していることがわかった。
論文 参考訳(メタデータ) (2024-12-10T01:29:51Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。