論文の概要: EVA-Score: Evaluation of Long-form Summarization on Informativeness through Extraction and Validation
- arxiv url: http://arxiv.org/abs/2407.04969v1
- Date: Sat, 6 Jul 2024 06:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:37:47.056211
- Title: EVA-Score: Evaluation of Long-form Summarization on Informativeness through Extraction and Validation
- Title(参考訳): EVAスコア:抽出と検証によるインフォーマルネスのロングフォーム要約の評価
- Authors: Yuchen Fan, Xin Zhong, Chengsi Wang, Gaoche Wu, Bowen Zhou,
- Abstract要約: EVA-Scoreは長文要約のための新しい評価指標である。
我々は,我々の測定値が人間と最先端の相関関係を示すことを示した。
- 参考スコア(独自算出の注目度): 19.80396362064475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Summarization is a fundamental task in natural language processing (NLP) and since large language models (LLMs), such as GPT-4 and Claude, come out, increasing attention has been paid to long-form summarization whose input sequences are much longer, indicating more information contained. The current evaluation metrics either use similarity-based metrics like ROUGE and BERTScore which rely on similarity and fail to consider informativeness or LLM-based metrics, lacking quantitative analysis of information richness and are rather subjective. In this paper, we propose a new evaluation metric called EVA-Score using Atomic Fact Chain Generation and Document-level Relation Extraction together to automatically calculate the informativeness and give a definite number as an information score. Experiment results show that our metric shows a state-of-the-art correlation with humans. We also re-evaluate the performance of LLMs on long-form summarization comprehensively from the information aspect, forecasting future ways to use LLMs for long-form summarization.
- Abstract(参考訳): 要約は自然言語処理(NLP)の基本課題であり、GPT-4やClaudeのような大規模言語モデル(LLM)が登場したため、入力シーケンスがずっと長い長文の要約に注目が集まるようになり、より多くの情報が含まれている。
現在の評価指標は、ROUGEやBERTScoreのような類似度に基づくメトリクスを使用するか、類似度に依存しており、情報豊かさの定量的分析が欠如しており、より主観的である。
本稿では,アトミック・ファクト・チェイン・ジェネレーションと文書レベルの関係抽出を併用したEVAスコアと呼ばれる新しい評価指標を提案し,その情報量を自動的に算出し,情報スコアとして定値を与える。
実験結果から,我々の測定値が人間と最先端の相関関係を示すことがわかった。
また、長文要約におけるLLMの性能を情報的側面から総合的に評価し、長文要約にLLMを使用する将来の方法を予測する。
関連論文リスト
- LFOSum: Summarizing Long-form Opinions with Large Language Models [7.839083566878183]
本稿では,(1)長文ユーザレビューの新しいデータセット,(1)1000以上のレビューを含むエンティティ,(2)長期入力にスケールする2つのトレーニングフリーLCMベースの要約アプローチ,(3)自動評価指標を紹介する。
ユーザレビューのデータセットは、ドメインの専門家による詳細な、偏見のない批判的な要約と組み合わせられ、評価の基準として役立ちます。
我々の評価では、LLMは長文要約における感情と形式順守のバランスをとる上で依然として課題に直面しているが、オープンソースモデルでは、関連する情報が集中的に検索される場合のギャップを狭めることができる。
論文 参考訳(メタデータ) (2024-10-16T20:52:39Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。