論文の概要: Just ClozE! A Fast and Simple Method for Evaluating the Factual
Consistency in Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2210.02804v1
- Date: Thu, 6 Oct 2022 10:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:26:34.207237
- Title: Just ClozE! A Fast and Simple Method for Evaluating the Factual
Consistency in Abstractive Summarization
- Title(参考訳): クローズだ!
抽象要約におけるFactual Consistencyの高速かつ簡便な評価法
- Authors: Yiyang Li, Lei Li, Qing Yang, Marina Litvak, Natalia Vanetik, Dingxin
Hu, Yuze Li, Yanquan Zhou, Dongliang Xu, Xuanyu Zhang
- Abstract要約: マスク付き言語モデル(MLM)に基づいてインスタンス化されたクローゼモデルにより,事実整合性を評価するClozEと呼ばれる新しい手法を提案する。
また,ClozEがQAベースの指標と比較して96$%近い時間で評価時間を短縮できることを実証した。
- 参考スコア(独自算出の注目度): 20.310185007886737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The issue of factual consistency in abstractive summarization has attracted
much attention in recent years, and the evaluation of factual consistency
between summary and document has become an important and urgent task. Most of
the current evaluation metrics are adopted from the question answering (QA).
However, the application of QA-based metrics is extremely time-consuming in
practice, causing the iteration cycle of abstractive summarization research to
be severely prolonged. In this paper, we propose a new method called ClozE to
evaluate factual consistency by cloze model, instantiated based on masked
language model(MLM), with strong interpretability and substantially higher
speed. We demonstrate that ClozE can reduce the evaluation time by nearly
96$\%$ relative to QA-based metrics while retaining their interpretability and
performance through experiments on six human-annotated datasets and a
meta-evaluation benchmark GO FIGURE \citep{gabriel2020go}. We also implement
experiments to further demonstrate more characteristics of ClozE in terms of
performance and speed. In addition, we conduct an experimental analysis of the
limitations of ClozE, which suggests future research directions. The code and
models for ClozE will be released upon the paper acceptance.
- Abstract(参考訳): 近年,抽象要約における事実整合性の問題が注目され,要約と文書間の事実整合性の評価が重要かつ緊急課題となっている。
現在の評価指標のほとんどは質問応答(QA)から採用されている。
しかし、QAベースのメトリクスの適用は実際は非常に時間がかかり、抽象的な要約研究の反復サイクルが著しく長引くことになる。
本稿では,マスク言語モデル(mlm)に基づいてインスタンス化されたclozeモデルによる事実整合性を評価するclozeと呼ばれる新しい手法を提案する。
評価時間をQAベースのメトリクスと比較して96$\%近く短縮できることを示すとともに、6つの人間アノテーション付きデータセットとメタ評価ベンチマークGO FIGURE \citep{gabriel2020go}の実験を通して、その解釈可能性と性能を維持する。
また,性能と速度の面でのclozeのさらなる特性を実証する実験も実施する。
さらに,ClozEの限界を実験的に分析し,今後の研究方向性を示唆する。
ClozEのコードとモデルは、論文の受理時にリリースされる。
関連論文リスト
- ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。
ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-22T09:35:42Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Do You Hear The People Sing? Key Point Analysis via Iterative Clustering
and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。
キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。
キーポイントの評価は 自動的に生成された要約が 役に立つことを保証するのに 不可欠です
論文 参考訳(メタデータ) (2023-05-25T12:43:29Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。