論文の概要: Just ClozE! A Novel Framework for Evaluating the Factual Consistency
Faster in Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2210.02804v2
- Date: Tue, 28 Nov 2023 10:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:29:35.010633
- Title: Just ClozE! A Novel Framework for Evaluating the Factual Consistency
Faster in Abstractive Summarization
- Title(参考訳): クローズだ!
抽象要約におけるFactual Consistency Fasterの評価のための新しいフレームワーク
- Authors: Yiyang Li, Lei Li, Marina Litvak, Natalia Vanetik, Dingxin Hu, Yuze
Li, Yanquan Zhou
- Abstract要約: そこで我々はClozEと呼ばれるクローゼに基づく評価フレームワークを提案する。
これは、NLIレベルの推論の速度を維持しながら、QAから強い解釈可能性を引き継いでいる。
ClozEは、QAベースのメトリクスと比較して、評価時間を96%近く短縮できることを示した。
- 参考スコア(独自算出の注目度): 12.039373732090793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The issue of factual consistency in abstractive summarization has received
extensive attention in recent years, and the evaluation of factual consistency
between summary and document has become an important and urgent task. Most of
the current evaluation metrics are adopted from the question answering (QA) or
natural language inference (NLI) task. However, the application of QA-based
metrics is extremely time-consuming in practice while NLI-based metrics are
lack of interpretability. In this paper, we propose a cloze-based evaluation
framework called ClozE and show the great potential of the cloze-based metric.
It inherits strong interpretability from QA, while maintaining the speed of
NLI- level reasoning. We demonstrate that ClozE can reduce the evaluation time
by nearly 96% relative to QA-based metrics while retaining their
interpretability and performance through experiments on six human-annotated
datasets and a meta-evaluation benchmark GO FIGURE (Gabriel et al., 2021).
Finally, we discuss three important facets of ClozE in practice, which further
shows better overall performance of ClozE compared to other metrics.
- Abstract(参考訳): 近年,抽象要約における事実整合性の問題が注目され,要約と文書間の事実整合性の評価が重要かつ緊急課題となっている。
現在の評価指標のほとんどは、質問応答(QA)や自然言語推論(NLI)タスクから採用されている。
しかし、QAベースのメトリクスの応用は実際に非常に時間がかかり、NLIベースのメトリクスは解釈不可能である。
本稿では,cloze と呼ばれるcloze ベースの評価フレームワークを提案し,cloze ベースのメトリクスの可能性を示す。
NLIレベルの推論速度を維持しながら、QAから強い解釈可能性を引き継ぐ。
評価時間をQAベースの指標と比較して約96%短縮できることを示すとともに、6つの人間アノテーション付きデータセットとメタ評価ベンチマークGO FIGURE(Gabriel et al., 2021)の実験を通してその解釈可能性と性能を維持する。
最後に、ClozEの重要な3つの側面について論じ、他のメトリクスと比較してClozEの全体的なパフォーマンスをさらに向上させる。
関連論文リスト
- ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。
ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-22T09:35:42Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Do You Hear The People Sing? Key Point Analysis via Iterative Clustering
and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。
キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。
キーポイントの評価は 自動的に生成された要約が 役に立つことを保証するのに 不可欠です
論文 参考訳(メタデータ) (2023-05-25T12:43:29Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。