論文の概要: EVA-Score: Evaluating Abstractive Long-form Summarization on Informativeness through Extraction and Validation
- arxiv url: http://arxiv.org/abs/2407.04969v3
- Date: Tue, 15 Oct 2024 05:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 23:35:45.156673
- Title: EVA-Score: Evaluating Abstractive Long-form Summarization on Informativeness through Extraction and Validation
- Title(参考訳): EVAスコア:抽出と検証によるインフォームネスの抽象的ロングフォーム要約の評価
- Authors: Yuchen Fan, Xin Zhong, Yazhe Wan, Chengsi Wang, Haonan Cheng, Gaoche Wu, Ning Ding, Bowen Zhou,
- Abstract要約: EVA-Scoreは抽象的な長文要約の評価指標である。
EVAスコアは人間との相関が最も高いことを示す。
また,LLMの長文要約性能を情報の観点から再評価する。
- 参考スコア(独自算出の注目度): 24.259369307335774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since LLMs emerged, more attention has been paid to abstractive long-form summarization, where longer input sequences indicate more information contained. Nevertheless, the automatic evaluation of such summaries remains underexplored. The current evaluation metrics for long-form summarization either use similarity-based metrics like ROUGE and BERTScore or LLM-based metrics using appropriate prompts or pre-defined schema. We argue that the former only relies on similarity and fails to consider informativeness while the latter lacks quantitative analysis of informative richness, and is rather subjective and hard to explain. Current evaluation metrics either use traditional metrics like ROUGE and BERTScore, which rely on surface-level similarity and fail to consider informativeness, or simple LLM-based metrics, which are not robust and easily overwhelmed by the long contexts. In this paper, we propose a new evaluation metric called EVA-Score to extract all information from the given summaries, identify overlapped information based on reference, and calculate the information score. We test EVA-Score on several datasets and the experimental results reveal that EVA-Score shows the highest correlation with humans. We also re-evaluate the performance of LLMs on long-form summarization from the information perspective. The results indicate that responses of LLMs still have a gap with the human-written answers. Moreover, we provide a detailed analysis of the effectiveness of EVA-Score, forecasting future ways to automatically evaluate abstractive long-form summarization.
- Abstract(参考訳): LLMが出現して以来、より長い入力シーケンスがより多くの情報を含むことを示す抽象的な長文要約により多くの注意が払われている。
しかし、このような要約の自動評価はいまだに未定である。
長期的な要約のための現在の評価指標は、ROUGEやBERTScoreのような類似性ベースのメトリクスを使うか、適切なプロンプトまたは事前定義されたスキーマを使用してLCMベースのメトリクスを使用する。
前者は類似性にのみ依存しており、後者は情報豊かさの定量的分析が欠如しており、より主観的で説明が難しい。
現在の評価基準はROUGEやBERTScoreのような従来のメトリクスを使用するが、これは表面レベルの類似性に依存し、情報性を考慮するのに失敗する。
本稿では、与えられた要約から全ての情報を抽出し、参照に基づいて重なり合った情報を識別し、情報スコアを算出するEVAスコアと呼ばれる新しい評価指標を提案する。
いくつかのデータセットでEVA-Scoreを検証したところ、EVA-Scoreは人間との相関が最も高いことがわかった。
また,LLMの長文要約性能を情報の観点から再評価する。
以上の結果から, LLMの応答は人間による回答と相容れないことが示唆された。
さらに、EVAスコアの有効性を詳細に分析し、抽象的な長文要約を自動的に評価する将来の方法を予測した。
関連論文リスト
- LFOSum: Summarizing Long-form Opinions with Large Language Models [7.839083566878183]
本稿では,(1)長文ユーザレビューの新しいデータセット,(1)1000以上のレビューを含むエンティティ,(2)長期入力にスケールする2つのトレーニングフリーLCMベースの要約アプローチ,(3)自動評価指標を紹介する。
ユーザレビューのデータセットは、ドメインの専門家による詳細な、偏見のない批判的な要約と組み合わせられ、評価の基準として役立ちます。
我々の評価では、LLMは長文要約における感情と形式順守のバランスをとる上で依然として課題に直面しているが、オープンソースモデルでは、関連する情報が集中的に検索される場合のギャップを狭めることができる。
論文 参考訳(メタデータ) (2024-10-16T20:52:39Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。