論文の概要: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization
- arxiv url: http://arxiv.org/abs/2308.02270v2
- Date: Sat, 27 Jul 2024 16:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:56:53.615039
- Title: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization
- Title(参考訳): マルチ参照に基づく抽出要約のゲインワイズ評価における冗長性の検討
- Authors: Mousumi Akter, Santu Karmaker,
- Abstract要約: ROUGEメートル法は意味的認識の欠如と抽出要約器のランク付け品質について無知であるとして批判されている。
これまでの研究では、これらの問題に対処するSem-nCGと呼ばれるゲインベースの自動メトリクスが導入された。
冗長性を考慮したSem-nCG測度を提案し、複数の参照に対してモデル要約を評価する方法を示す。
- 参考スコア(独自算出の注目度): 3.5297361401370044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ROUGE metric is commonly used to evaluate extractive summarization task, but it has been criticized for its lack of semantic awareness and its ignorance about the ranking quality of the extractive summarizer. Previous research has introduced a gain-based automated metric called Sem-nCG that addresses these issues, as it is both rank and semantic aware. However, it does not consider the amount of redundancy present in a model summary and currently does not support evaluation with multiple reference summaries. It is essential to have a model summary that balances importance and diversity, but finding a metric that captures both of these aspects is challenging. In this paper, we propose a redundancy-aware Sem-nCG metric and demonstrate how the revised Sem-nCG metric can be used to evaluate model summaries against multiple references as well which was missing in previous research. Experimental results demonstrate that the revised Sem-nCG metric has a stronger correlation with human judgments compared to the previous Sem-nCG metric and traditional ROUGE and BERTScore metric for both single and multiple reference scenarios.
- Abstract(参考訳): ROUGEメートル法は, 抽出要約作業の評価に一般的に用いられているが, 意味的認識の欠如と抽出要約器のランキング品質に対する無知が批判されている。
従来の研究では、Sem-nCGと呼ばれるゲインベースの自動メトリクスを導入しており、ランクとセマンティックを意識しているため、これらの問題に対処している。
しかし、モデル要約に存在する冗長性を考慮せず、現在は複数の参照サマリーによる評価をサポートしていない。
重要性と多様性のバランスをとるモデル概要を持つことは不可欠ですが、両方の側面を捉えるメトリクスを見つけることは難しいのです。
本稿では, 冗長性を考慮したSem-nCGメトリクスを提案し, 改良されたSem-nCGメトリックを用いて, 過去の研究で欠落していた複数の参照に対するモデル要約を評価する方法を示す。
実験の結果,改訂されたSem-nCGは,従来のROUGEとBERTScoreの2つの基準シナリオに対して,従来のSem-nCGと比べ,人間の判断との相関が強いことがわかった。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Improving abstractive summarization with energy-based re-ranking [4.311978285976062]
本稿では、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。
我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-10-27T15:43:36Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。