論文の概要: TracSum: A New Benchmark for Aspect-Based Summarization with Sentence-Level Traceability in Medical Domain
- arxiv url: http://arxiv.org/abs/2508.13798v1
- Date: Tue, 19 Aug 2025 12:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.925051
- Title: TracSum: A New Benchmark for Aspect-Based Summarization with Sentence-Level Traceability in Medical Domain
- Title(参考訳): TracSum: 医学領域における文レベルトレーサビリティを用いたアスペクトベース要約のための新しいベンチマーク
- Authors: Bohao Chu, Meijie Li, Sameh Frihat, Chengyu Gu, Georg Lodde, Elisabeth Livingstone, Norbert Fuhr,
- Abstract要約: 我々は、トレース可能なアスペクトベースの要約のための新しいベンチマークであるTracSumを紹介する。
生成された要約は文レベルの引用と組み合わせられ、ユーザが元のコンテキストに遡ることができる。
TracSumは、トレース可能なアスペクトベースの要約タスクの効果的なベンチマークとして機能することを示す。
- 参考スコア(独自算出の注目度): 1.5732353205551508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While document summarization with LLMs has enhanced access to textual information, concerns about the factual accuracy of these summaries persist, especially in the medical domain. Tracing evidence from which summaries are derived enables users to assess their accuracy, thereby alleviating this concern. In this paper, we introduce TracSum, a novel benchmark for traceable, aspect-based summarization, in which generated summaries are paired with sentence-level citations, enabling users to trace back to the original context. First, we annotate 500 medical abstracts for seven key medical aspects, yielding 3.5K summary-citation pairs. We then propose a fine-grained evaluation framework for this new task, designed to assess the completeness and consistency of generated content using four metrics. Finally, we introduce a summarization pipeline, Track-Then-Sum, which serves as a baseline method for comparison. In experiments, we evaluate both this baseline and a set of LLMs on TracSum, and conduct a human evaluation to assess the evaluation results. The findings demonstrate that TracSum can serve as an effective benchmark for traceable, aspect-based summarization tasks. We also observe that explicitly performing sentence-level tracking prior to summarization enhances generation accuracy, while incorporating the full context further improves completeness.
- Abstract(参考訳): LLMによる文書要約は、テキスト情報へのアクセスを促進する一方で、これらの要約の事実的正確性に関する懸念は、特に医学領域において持続している。
要約が導出される証拠の追跡により、ユーザは正確さを評価し、この懸念を軽減することができる。
本稿では、トレーサブルなアスペクトベースの要約のための新しいベンチマークであるTracSumを紹介し、生成された要約を文レベルの引用と組み合わせることで、ユーザが元の文脈に遡ることができるようにする。
まず,7つの重要な医学的側面について,500の医学的要約を注釈し,3.5Kの要約-引用対を得た。
次に,4つの指標を用いて生成したコンテンツの完全性と一貫性を評価することを目的とした,新しいタスクのためのきめ細かい評価フレームワークを提案する。
最後に,要約パイプラインであるTrack-Then-Sumを導入する。
実験では,このベースラインとLLMのセットをTracSum上で評価し,人間による評価を行い,評価結果を評価した。
この結果は、TracSumがトレース可能なアスペクトベースの要約タスクの効果的なベンチマークとして機能することを示している。
また,要約に先立って文レベルの追従を明示的に行うと生成精度が向上し,完全性も向上する。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - SummIt: Iterative Text Summarization via ChatGPT [12.966825834765814]
本稿では,ChatGPTのような大規模言語モデルに基づく反復的なテキスト要約フレームワークSummItを提案する。
我々のフレームワークは、自己評価とフィードバックによって生成された要約を反復的に洗練することを可能にする。
また, 繰り返し改良の有効性を検証し, 過補正の潜在的な問題を特定するために, 人間の評価を行う。
論文 参考訳(メタデータ) (2023-05-24T07:40:06Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Towards Clinical Encounter Summarization: Learning to Compose Discharge
Summaries from Prior Notes [15.689048077818324]
本論文では,臨床遭遇のための排出要約を生成するタスクについて紹介する。
評価には,2つの新しい尺度,忠実度と幻覚率を導入する。
7つの医療部門と5つのモデルにわたる結果は、トレーサビリティをサポートする要約アーキテクチャが有望な結果をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-04-27T22:45:54Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。