論文の概要: GUMsley: Evaluating Entity Salience in Summarization for 12 English
Genres
- arxiv url: http://arxiv.org/abs/2401.17974v1
- Date: Wed, 31 Jan 2024 16:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:50:29.210358
- Title: GUMsley: Evaluating Entity Salience in Summarization for 12 English
Genres
- Title(参考訳): GUMsley:12の英国のジェネラルの要約におけるエンティティサリエンスの評価
- Authors: Jessica Lin, Amir Zeldes
- Abstract要約: GUMsleyは、12のジャンルの英語テキストに対して、名前付きおよび名前なしの敬意的エンティティを全てカバーする最初のエンティティ・サリエンス・データセットである。
いくつかのモデルアーキテクチャに対して健全なエンティティを予測または提供することにより、パフォーマンスが向上し、高品質なサマリーの導出に役立つことを示す。
- 参考スコア(独自算出の注目度): 14.37990666928991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As NLP models become increasingly capable of understanding documents in terms
of coherent entities rather than strings, obtaining the most salient entities
for each document is not only an important end task in itself but also vital
for Information Retrieval (IR) and other downstream applications such as
controllable summarization. In this paper, we present and evaluate GUMsley, the
first entity salience dataset covering all named and non-named salient entities
for 12 genres of English text, aligned with entity types, Wikification links
and full coreference resolution annotations. We promote a strict definition of
salience using human summaries and demonstrate high inter-annotator agreement
for salience based on whether a source entity is mentioned in the summary. Our
evaluation shows poor performance by pre-trained SOTA summarization models and
zero-shot LLM prompting in capturing salient entities in generated summaries.
We also show that predicting or providing salient entities to several model
architectures enhances performance and helps derive higher-quality summaries by
alleviating the entity hallucination problem in existing abstractive
summarization.
- Abstract(参考訳): NLPモデルは、文字列ではなくコヒーレントなエンティティという観点でドキュメントを理解する能力が増すにつれて、各ドキュメントに対して最も健全なエンティティを取得することは、それ自体が重要なエンドタスクであるだけでなく、情報検索(IR)や、制御可能な要約などの下流アプリケーションにも不可欠である。
本稿では,12種類の英語テキストに対して名前付きおよび非名前のサルエントエンティティを網羅する最初のエンティティ・サルエンスデータセットであるgumsleyを,エンティティタイプ,ウィキフィケーションリンク,完全なコリファレンス解決アノテーションと整合させて紹介し,評価する。
本稿では,人間の要約を用いて,より厳密なサリエンス定義を推進し,サリエンスに対するアノテータ間の合意を,ソースエンティティが言及されているかどうかに基づいて示す。
本評価は,SOTA要約モデルとゼロショットLCMを用いて,生成したサリアンエンティティの取得を促進させる性能の低下を示す。
また,複数のモデルアーキテクチャに有意なエンティティを予測・提供することで性能が向上し,既存の抽象要約におけるエンティティ幻覚問題を緩和することで,高品質な要約を導出できることを示した。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - GUMSum: Multi-Genre Data and Evaluation for English Abstractive
Summarization [10.609715843964263]
事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、"幻覚"の傾向にある。
GUMSumは、抽象的な要約を評価するために、12の言語ジャンルで書かれた英語の要約のデータセットである。
論文 参考訳(メタデータ) (2023-06-20T03:21:10Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - AgreeSum: Agreement-Oriented Multi-Document Summarization [3.4743618614284113]
記事の集合が与えられた場合、ゴールはすべての入力記事に共通かつ忠実な情報を表す抽象的な要約を提供することである。
我々は、AgreeSumのデータセットを作成し、データセット内のクラスタのサブセットについて、記事の要約関係に関するアノテーションを提供します。
論文 参考訳(メタデータ) (2021-06-04T06:17:49Z) - Entity-level Factual Consistency of Abstractive Text Summarization [26.19686599842915]
抽象要約の重要な課題は、生成した要約の原文書に対する事実的一貫性を保証することである。
生成した要約の実体レベルの事実整合性を定量化するための新しいメトリクスセットを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:07:28Z) - Constrained Abstractive Summarization: Preserving Factual Consistency
with Constrained Generation [93.87095877617968]
本稿では,抽象要約の現実的一貫性を保ちつつ,制約付き抽象要約(CAS)を提案する。
我々は、CASを満たすために、一般的に自己回帰生成モデルに適用される語彙制約付き復号法を採用する。
対話的要約において1つの手動制約のみを使用する場合、最大13.8ROUGE-2ゲインを観測する。
論文 参考訳(メタデータ) (2020-10-24T00:27:44Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Neural Entity Summarization with Joint Encoding and Weak Supervision [29.26714907483851]
知識グラフでは、実体はしばしば多くの三つの事実によって記述される。
既存の実体化ソリューションは、主に教師なしである。
本稿では,新しいニューラルモデルに基づく教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-01T00:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。