論文の概要: STORYSUMM: Evaluating Faithfulness in Story Summarization
- arxiv url: http://arxiv.org/abs/2407.06501v1
- Date: Tue, 9 Jul 2024 02:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:35:13.513365
- Title: STORYSUMM: Evaluating Faithfulness in Story Summarization
- Title(参考訳): STORYSUMM: ストーリー要約における忠実さの評価
- Authors: Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen McKeown,
- Abstract要約: 本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。
このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
- 参考スコア(独自算出の注目度): 31.94902013480574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluation has been the gold standard for checking faithfulness in abstractive summarization. However, with a challenging source domain like narrative, multiple annotators can agree a summary is faithful, while missing details that are obvious errors only once pointed out. We therefore introduce a new dataset, STORYSUMM, comprising LLM summaries of short stories with localized faithfulness labels and error explanations. This benchmark is for evaluation methods, testing whether a given method can detect challenging inconsistencies. Using this dataset, we first show that any one human annotation protocol is likely to miss inconsistencies, and we advocate for pursuing a range of methods when establishing ground truth for a summarization dataset. We finally test recent automatic metrics and find that none of them achieve more than 70% balanced accuracy on this task, demonstrating that it is a challenging benchmark for future work in faithfulness evaluation.
- Abstract(参考訳): 人間の評価は抽象的な要約における忠実性を確認するための金の基準となっている。
しかしながら、ナラティブのような難しいソースドメインでは、複数のアノテータが要約が忠実であることに同意できる一方で、一度だけ指摘された明らかなエラーの詳細が欠落している。
そこで我々は,局所的な忠実度ラベルと誤り説明を備えた短編小説のLCM要約を含む新しいデータセット,STORYSUMMを導入する。
このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
このデータセットを用いて、まず、ある人間のアノテーションプロトコルが不整合を見逃しかねないことを示し、要約データセットの基礎的真理を確立する際に、様々な手法を追求することを提唱する。
最終的に、最近の自動メトリクスをテストし、このタスクで70%以上のバランスの取れた正確さを達成できないことを発見しました。
関連論文リスト
- On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文 参考訳(メタデータ) (2024-10-31T03:50:15Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Masked Summarization to Generate Factually Inconsistent Summaries for
Improved Factual Consistency Checking [28.66287193703365]
本稿では,キー情報を隠蔽したソーステキストと参照要約を用いて,現実的に一貫性のない要約を生成することを提案する。
7つのベンチマークデータセットを用いた実験により,提案手法を用いて生成した要約に基づいて訓練された実例整合性分類器が既存モデルを上回っていることが示された。
論文 参考訳(メタデータ) (2022-05-04T12:48:49Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings [0.0]
信頼性を重視した新たな無基準要約品質評価手法を提案します。
Mismatched Embeddings による概要テキスト不整合推定器 ESTIME は,要約レベルの SummEval データセットにおいて,他の一般的な評価指標よりも強い専門家スコアと相関する。
論文 参考訳(メタデータ) (2021-04-12T01:58:21Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。