論文の概要: FFCI: A Framework for Interpretable Automatic Evaluation of
Summarization
- arxiv url: http://arxiv.org/abs/2011.13662v3
- Date: Mon, 28 Feb 2022 02:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:05:30.588665
- Title: FFCI: A Framework for Interpretable Automatic Evaluation of
Summarization
- Title(参考訳): ffci:要約の解釈可能な自動評価のためのフレームワーク
- Authors: Fajri Koto and Timothy Baldwin and Jey Han Lau
- Abstract要約: 本稿では,精細な要約評価のためのフレームワークであるFFCIを提案する。
我々は、焦点、カバレッジ、相互一貫性のための新しいデータセットを構築した。
開発したメトリクスを2つのデータセットにわたる広範囲の要約モデルの評価に適用する。
- 参考スコア(独自算出の注目度): 43.375797352517765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose FFCI, a framework for fine-grained summarization
evaluation that comprises four elements: faithfulness (degree of factual
consistency with the source), focus (precision of summary content relative to
the reference), coverage (recall of summary content relative to the reference),
and inter-sentential coherence (document fluency between adjacent sentences).
We construct a novel dataset for focus, coverage, and inter-sentential
coherence, and develop automatic methods for evaluating each of the four
dimensions of FFCI based on cross-comparison of evaluation metrics and
model-based evaluation methods, including question answering (QA) approaches,
semantic textual similarity (STS), next-sentence prediction (NSP), and scores
derived from 19 pre-trained language models. We then apply the developed
metrics in evaluating a broad range of summarization models across two
datasets, with some surprising findings.
- Abstract(参考訳): 本稿では,忠実性(ソースとの事実整合性の程度),フォーカス(参照に対する要約コンテンツの精度),カバレッジ(参照に対する要約コンテンツのリコール),文間コヒーレンス(隣接文間の文書フラレンス)の4要素からなる,きめ細かな要約評価のためのフレームワークであるffciを提案する。
焦点, カバレッジ, 間コヒーレンスのための新しいデータセットを構築し, 質問応答(QA)アプローチ, 意味的テキスト類似性(STS), 次文予測(NSP), 19の事前学習言語モデルから得られたスコアを含む, 評価指標とモデルに基づく評価手法の相互比較に基づいて, FFCIの4次元のそれぞれを評価する自動手法を開発した。
次に、開発したメトリクスを、2つのデータセットにまたがる幅広い要約モデルの評価に適用し、いくつかの驚くべき結果を得た。
関連論文リスト
- SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Towards Interpretable Summary Evaluation via Allocation of Contextual
Embeddings to Reference Text Topics [1.5749416770494706]
多面的解釈可能な要約評価法(MISEM)は、要約の文脈トークンの埋め込みを、参照テキストで特定されたセマンティックトピックに割り当てることに基づいている。
MISEMはTAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。
論文 参考訳(メタデータ) (2022-10-25T17:09:08Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。