論文の概要: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive
Summarization
- arxiv url: http://arxiv.org/abs/2308.02270v1
- Date: Fri, 4 Aug 2023 11:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:01:22.333390
- Title: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive
Summarization
- Title(参考訳): 冗長性を考慮した多元参照に基づく抽出要約のゲインワイズ評価
- Authors: Mousumi Akter, Shubhra Kanti Karmaker Santu
- Abstract要約: ROUGEメトリックは、意味的認識の欠如と、要約者のランク付け品質について無知であるとして、長い間批判されてきた。
冗長性を考慮したSem-nCG測度を提案し、この新しい測度を用いてモデル要約を複数の参照に対して評価する方法を実証する。
- 参考スコア(独自算出の注目度): 1.022898441415693
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While very popular for evaluating extractive summarization task, the ROUGE
metric has long been criticized for its lack of semantic awareness and its
ignorance about the ranking quality of the summarizer. Thanks to previous
research that has addressed these issues by proposing a gain-based automated
metric called Sem-nCG, which is both rank and semantic aware. However, Sem-nCG
does not consider the amount of redundancy present in a model-generated summary
and currently does not support evaluation with multiple reference summaries.
Unfortunately, addressing both these limitations simultaneously is not trivial.
Therefore, in this paper, we propose a redundancy-aware Sem-nCG metric and
demonstrate how this new metric can be used to evaluate model summaries against
multiple references. We also explore different ways of incorporating redundancy
into the original metric through extensive experiments. Experimental results
demonstrate that the new redundancy-aware metric exhibits a higher correlation
with human judgments than the original Sem-nCG metric for both single and
multiple reference scenarios.
- Abstract(参考訳): 抽出要約タスクの評価には非常に人気があるが、ルージュ計量は意味的認識の欠如と要約者のランキング品質の無知から長い間批判されてきた。
これまでの研究により、sem-ncgと呼ばれるゲインベースの自動化メトリックを提案し、ランクと意味の両方を認識した。
しかし、Sem-nCGはモデル生成要約に存在する冗長性を考慮せず、現在は複数の参照要約による評価をサポートしていない。
残念ながら、両方の制限に同時に対処することは簡単ではない。
そこで本稿では, 冗長性を考慮したSem-nCGメトリクスを提案し, モデル要約を複数の参照に対して評価する方法を示す。
また、広範な実験を通じて、元の計量に冗長性を組み込む様々な方法についても検討する。
実験の結果、新しい冗長性認識指標は、単一および複数の参照シナリオにおいて、元のsem-ncg指標よりも人間の判断と高い相関を示すことが示された。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Improving abstractive summarization with energy-based re-ranking [4.311978285976062]
本稿では、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。
我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-10-27T15:43:36Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for
Multi-Document Summarization [31.082618343998533]
本稿では,その意味的類似度を疑似参照要約と比較することにより,要約の質を評価するSUPERTを提案する。
最先端の教師なし評価指標と比較すると、SUPERTは人間の評価と18~39%の相関がある。
我々は、ニューラルネットワークに基づく強化学習要約器を誘導する報酬としてSUPERTを使用し、最先端の教師なし要約器と比較して良好な性能を得る。
論文 参考訳(メタデータ) (2020-05-07T19:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。