論文の概要: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization
- arxiv url: http://arxiv.org/abs/2308.02270v2
- Date: Sat, 27 Jul 2024 16:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:56:53.615039
- Title: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization
- Title(参考訳): マルチ参照に基づく抽出要約のゲインワイズ評価における冗長性の検討
- Authors: Mousumi Akter, Santu Karmaker,
- Abstract要約: ROUGEメートル法は意味的認識の欠如と抽出要約器のランク付け品質について無知であるとして批判されている。
これまでの研究では、これらの問題に対処するSem-nCGと呼ばれるゲインベースの自動メトリクスが導入された。
冗長性を考慮したSem-nCG測度を提案し、複数の参照に対してモデル要約を評価する方法を示す。
- 参考スコア(独自算出の注目度): 3.5297361401370044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ROUGE metric is commonly used to evaluate extractive summarization task, but it has been criticized for its lack of semantic awareness and its ignorance about the ranking quality of the extractive summarizer. Previous research has introduced a gain-based automated metric called Sem-nCG that addresses these issues, as it is both rank and semantic aware. However, it does not consider the amount of redundancy present in a model summary and currently does not support evaluation with multiple reference summaries. It is essential to have a model summary that balances importance and diversity, but finding a metric that captures both of these aspects is challenging. In this paper, we propose a redundancy-aware Sem-nCG metric and demonstrate how the revised Sem-nCG metric can be used to evaluate model summaries against multiple references as well which was missing in previous research. Experimental results demonstrate that the revised Sem-nCG metric has a stronger correlation with human judgments compared to the previous Sem-nCG metric and traditional ROUGE and BERTScore metric for both single and multiple reference scenarios.
- Abstract(参考訳): ROUGEメートル法は, 抽出要約作業の評価に一般的に用いられているが, 意味的認識の欠如と抽出要約器のランキング品質に対する無知が批判されている。
従来の研究では、Sem-nCGと呼ばれるゲインベースの自動メトリクスを導入しており、ランクとセマンティックを意識しているため、これらの問題に対処している。
しかし、モデル要約に存在する冗長性を考慮せず、現在は複数の参照サマリーによる評価をサポートしていない。
重要性と多様性のバランスをとるモデル概要を持つことは不可欠ですが、両方の側面を捉えるメトリクスを見つけることは難しいのです。
本稿では, 冗長性を考慮したSem-nCGメトリクスを提案し, 改良されたSem-nCGメトリックを用いて, 過去の研究で欠落していた複数の参照に対するモデル要約を評価する方法を示す。
実験の結果,改訂されたSem-nCGは,従来のROUGEとBERTScoreの2つの基準シナリオに対して,従来のSem-nCGと比べ,人間の判断との相関が強いことがわかった。
関連論文リスト
- Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Improving abstractive summarization with energy-based re-ranking [4.311978285976062]
本稿では、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。
我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-10-27T15:43:36Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for
Multi-Document Summarization [31.082618343998533]
本稿では,その意味的類似度を疑似参照要約と比較することにより,要約の質を評価するSUPERTを提案する。
最先端の教師なし評価指標と比較すると、SUPERTは人間の評価と18~39%の相関がある。
我々は、ニューラルネットワークに基づく強化学習要約器を誘導する報酬としてSUPERTを使用し、最先端の教師なし要約器と比較して良好な性能を得る。
論文 参考訳(メタデータ) (2020-05-07T19:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。