論文の概要: SAFEval: Summarization Asks for Fact-based Evaluation
- arxiv url: http://arxiv.org/abs/2103.12693v1
- Date: Tue, 23 Mar 2021 17:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:58:56.940889
- Title: SAFEval: Summarization Asks for Fact-based Evaluation
- Title(参考訳): safeval: 事実に基づく評価を求める要約
- Authors: Thomas Scialom, Paul-Alexis Dray, Patrick Gallinari, Sylvain Lamprier,
Benjamin Piwowarski, Jacopo Staiano, Alex Wang
- Abstract要約: 従来のアプローチを拡張し,SAFEvalという統合フレームワークを提案する。
ROUGEやBERTScoreのような確立したメトリクスとは対照的に、SAFEvalは基盤真実参照を必要としない。
SAFEvalは4つの評価次元上の人間の判断との相関を実質的に改善することを示します。
- 参考スコア(独自算出の注目度): 40.02686002117778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarization evaluation remains an open research problem: current metrics
such as ROUGE are known to be limited and to correlate poorly with human
judgments. To alleviate this issue, recent work has proposed evaluation metrics
which rely on question answering models to assess whether a summary contains
all the relevant information in its source document. Though promising, the
proposed approaches have so far failed to correlate better than ROUGE with
human judgments.
In this paper, we extend previous approaches and propose a unified framework,
named SAFEval. In contrast to established metrics such as ROUGE or BERTScore,
SAFEval does not require any ground-truth reference. Nonetheless, SAFEval
substantially improves the correlation with human judgments over four
evaluation dimensions (consistency, coherence, fluency, and relevance), as
shown in the extensive experiments we report.
- Abstract(参考訳): ROUGEのような現在の指標は限定的であり、人間の判断と相関しにくいことが知られている。
この問題を軽減するため、最近の研究では、サマリがソースドキュメントにすべての関連情報を含んでいるかどうかを評価するために、質問応答モデルに依存する評価メトリクスを提案している。
将来性はあるものの、提案されたアプローチは人間の判断とROUGEよりは相関しない。
本稿では,従来のアプローチを拡張し,safevalという統一フレームワークを提案する。
ROUGEやBERTScoreのような確立したメトリクスとは対照的に、SAFEvalは基盤真実参照を必要としない。
しかしながら,SAFEvalは,4つの評価次元(一貫性,コヒーレンス,流布性,関連性)において,人間の判断との相関性を大幅に改善する。
関連論文リスト
- Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。
評価に最も適した指標についてのコンセンサスはない。
論文 参考訳(メタデータ) (2024-06-05T12:45:23Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely [29.4981129248937]
そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
論文 参考訳(メタデータ) (2022-12-20T06:01:13Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings [0.0]
信頼性を重視した新たな無基準要約品質評価手法を提案します。
Mismatched Embeddings による概要テキスト不整合推定器 ESTIME は,要約レベルの SummEval データセットにおいて,他の一般的な評価指標よりも強い専門家スコアと相関する。
論文 参考訳(メタデータ) (2021-04-12T01:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。