論文の概要: GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction
- arxiv url: http://arxiv.org/abs/2504.10792v1
- Date: Tue, 15 Apr 2025 01:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:36.615764
- Title: GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction
- Title(参考訳): GUM-SAGE:グレード・エンティティ・サイレンス予測のための新しいデータセットとアプローチ
- Authors: Jessica Lin, Amir Zeldes,
- Abstract要約: 格付けされたエンティティサリエンス(英語版)は、テキストにおける相対的な重要性を反映したエンティティスコアを割り当てる。
両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスのための新しいアプローチを提案する。
提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 12.172254885579706
- License:
- Abstract: Determining and ranking the most salient entities in a text is critical for user-facing systems, especially as users increasingly rely on models to interpret long documents they only partially read. Graded entity salience addresses this need by assigning entities scores that reflect their relative importance in a text. Existing approaches fall into two main categories: subjective judgments of salience, which allow for gradient scoring but lack consistency, and summarization-based methods, which define salience as mention-worthiness in a summary, promoting explainability but limiting outputs to binary labels (entities are either summary-worthy or not). In this paper, we introduce a novel approach for graded entity salience that combines the strengths of both approaches. Using an English dataset spanning 12 spoken and written genres, we collect 5 summaries per document and calculate each entity's salience score based on its presence across these summaries. Our approach shows stronger correlation with scores based on human summaries and alignments, and outperforms existing techniques, including LLMs. We release our data and code at https://github.com/jl908069/gum_sum_salience to support further research on graded salient entity extraction.
- Abstract(参考訳): テキストの中でもっとも有能なエンティティを決定・ランク付けすることは、特にユーザーが部分的にしか読まない長いドキュメントを解釈するモデルにますます依存しているため、ユーザ向けシステムにとって非常に重要である。
Graded entity salienceは、テキストにおけるそれらの相対的な重要性を反映したエンティティスコアを割り当てることで、このニーズに対処する。
既存のアプローチは2つの主要なカテゴリに分類される: 主観的なサリエンス判定(Sallience)、一貫性の欠如(Sallience)、サリエンスを要約中の言及の重要度として定義する要約法(Summarization-based method)、説明可能性を促進するが、出力をバイナリラベルに制限する(エンティティは要約に相応しいか、そうでないかのどちらか)。
本稿では,両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスに対する新しいアプローチを提案する。
英語の12の話し言葉と書き言葉のジャンルにまたがるデータセットを用いて、文書毎に5つの要約を収集し、それらの要約にまたがる存在に基づいて各エンティティのサリエンススコアを算出する。
提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,LLMなどの既存手法よりも優れていた。
データとコードはhttps://github.com/jl908069/gum_sum_salienceで公開しています。
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - GUMsley: Evaluating Entity Salience in Summarization for 12 English
Genres [14.37990666928991]
GUMsleyは、12のジャンルの英語テキストに対して、名前付きおよび名前なしの敬意的エンティティを全てカバーする最初のエンティティ・サリエンス・データセットである。
いくつかのモデルアーキテクチャに対して健全なエンティティを予測または提供することにより、パフォーマンスが向上し、高品質なサマリーの導出に役立つことを示す。
論文 参考訳(メタデータ) (2024-01-31T16:30:50Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。