論文の概要: Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries
- arxiv url: http://arxiv.org/abs/2010.12495v1
- Date: Fri, 23 Oct 2020 15:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:44:05.744565
- Title: Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries
- Title(参考訳): 要約評価指標が要約の情報品質を計測する程度を理解する
- Authors: Daniel Deutsch, Dan Roth
- Abstract要約: ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
- 参考スコア(独自算出の注目度): 74.28810048824519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference-based metrics such as ROUGE or BERTScore evaluate the content
quality of a summary by comparing the summary to a reference. Ideally, this
comparison should measure the summary's information quality by calculating how
much information the summaries have in common. In this work, we analyze the
token alignments used by ROUGE and BERTScore to compare summaries and argue
that their scores largely cannot be interpreted as measuring information
overlap, but rather the extent to which they discuss the same topics. Further,
we provide evidence that this result holds true for many other summarization
evaluation metrics. The consequence of this result is that it means the
summarization community has not yet found a reliable automatic metric that
aligns with its research goal, to generate summaries with high-quality
information. Then, we propose a simple and interpretable method of evaluating
summaries which does directly measure information overlap and demonstrate how
it can be used to gain insights into model behavior that could not be provided
by other methods alone.
- Abstract(参考訳): rougeやbertscoreといった参照ベースのメトリクスは、要約と参照を比較して要約の内容品質を評価する。
理想的には、この比較は要約に共通する情報量を計算することによって要約の情報品質を測定するべきである。
本研究では, rouge と bertscore が使用したトークンアライメントを分析し, 要約の比較を行い, それらのスコアは, 情報の重なりを計測するものとして解釈されるものではなく, 同じ話題について議論する程度であると主張した。
さらに,この結果が他の多くの要約評価指標に当てはまることを示す。
この結果から,研究目標と整合する信頼性の高い自動指標がまだ発見されておらず,高品質な情報の要約が得られていないことが示唆された。
そこで本研究では,情報重複度を直接測定する簡易かつ解釈可能な要約評価手法を提案し,他の手法だけでは提供できないモデル行動に対する洞察を得る方法について示す。
関連論文リスト
- Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings [0.0]
信頼性を重視した新たな無基準要約品質評価手法を提案します。
Mismatched Embeddings による概要テキスト不整合推定器 ESTIME は,要約レベルの SummEval データセットにおいて,他の一般的な評価指標よりも強い専門家スコアと相関する。
論文 参考訳(メタデータ) (2021-04-12T01:58:21Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。