Fugu-MT 論文翻訳(概要): Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization

論文の概要: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization

arxiv url: http://arxiv.org/abs/2308.02270v1
Date: Fri, 4 Aug 2023 11:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-07 13:01:22.333390
Title: Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization
Title（参考訳）: 冗長性を考慮した多元参照に基づく抽出要約のゲインワイズ評価
Authors: Mousumi Akter, Shubhra Kanti Karmaker Santu
Abstract要約: ROUGEメトリックは、意味的認識の欠如と、要約者のランク付け品質について無知であるとして、長い間批判されてきた。冗長性を考慮したSem-nCG測度を提案し、この新しい測度を用いてモデル要約を複数の参照に対して評価する方法を実証する。
参考スコア（独自算出の注目度）: 1.022898441415693
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While very popular for evaluating extractive summarization task, the ROUGE metric has long been criticized for its lack of semantic awareness and its ignorance about the ranking quality of the summarizer. Thanks to previous research that has addressed these issues by proposing a gain-based automated metric called Sem-nCG, which is both rank and semantic aware. However, Sem-nCG does not consider the amount of redundancy present in a model-generated summary and currently does not support evaluation with multiple reference summaries. Unfortunately, addressing both these limitations simultaneously is not trivial. Therefore, in this paper, we propose a redundancy-aware Sem-nCG metric and demonstrate how this new metric can be used to evaluate model summaries against multiple references. We also explore different ways of incorporating redundancy into the original metric through extensive experiments. Experimental results demonstrate that the new redundancy-aware metric exhibits a higher correlation with human judgments than the original Sem-nCG metric for both single and multiple reference scenarios.
Abstract（参考訳）: 抽出要約タスクの評価には非常に人気があるが、ルージュ計量は意味的認識の欠如と要約者のランキング品質の無知から長い間批判されてきた。これまでの研究により、sem-ncgと呼ばれるゲインベースの自動化メトリックを提案し、ランクと意味の両方を認識した。しかし、Sem-nCGはモデル生成要約に存在する冗長性を考慮せず、現在は複数の参照要約による評価をサポートしていない。残念ながら、両方の制限に同時に対処することは簡単ではない。そこで本稿では, 冗長性を考慮したSem-nCGメトリクスを提案し, モデル要約を複数の参照に対して評価する方法を示す。また、広範な実験を通じて、元の計量に冗長性を組み込む様々な方法についても検討する。実験の結果、新しい冗長性認識指標は、単一および複数の参照シナリオにおいて、元のsem-ncg指標よりも人間の判断と高い相関を示すことが示された。

関連論文リスト

References Matter: Investigating the Impact of Reference Set Variation on Summarization Evaluation [25.428322811598722]
本研究は,参照セットの選択に関して,広く使用されている参照ベースメトリクスの感度について検討する。多くの一般的な指標が大きな不安定性を示していることを実証する。この不安定性は、参照セットによってモデルランキングが異なるROUGEのようなn-gramベースのメトリクスに特に関係している。
論文参考訳（メタデータ） (2025-06-17T09:17:41Z)
Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文参考訳（メタデータ） (2024-10-08T11:09:25Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Improving abstractive summarization with energy-based re-ranking [4.311978285976062]
本稿では、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。
論文参考訳（メタデータ） (2022-10-27T15:43:36Z)
WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文参考訳（メタデータ） (2022-01-23T14:40:42Z)
A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文参考訳（メタデータ） (2021-06-26T05:11:27Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
Understanding the Extent to which Summarization Evaluation Metrics Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文参考訳（メタデータ） (2020-10-23T15:55:15Z)
Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-05T05:04:14Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。