論文の概要: Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks
- arxiv url: http://arxiv.org/abs/2305.15044v1
- Date: Wed, 24 May 2023 11:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:25:24.643713
- Title: Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks
- Title(参考訳): 要約は役に立ちますか?
下流作業におけるテキスト要約の人間性評価
- Authors: Xiao Pu, Mingqi Gao, Xiaojun Wan
- Abstract要約: 本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
- 参考スコア(独自算出の注目度): 45.550554287918885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on automated text summarization relies heavily on human and
automatic evaluation. While recent work on human evaluation mainly adopted
intrinsic evaluation methods, judging the generic quality of text summaries,
e.g. informativeness and coherence, our work focuses on evaluating the
usefulness of text summaries with extrinsic methods. We carefully design three
different downstream tasks for extrinsic human evaluation of summaries, i.e.,
question answering, text classification and text similarity assessment. We
carry out experiments using system rankings and user behavior data to evaluate
the performance of different summarization models. We find summaries are
particularly useful in tasks that rely on an overall judgment of the text,
while being less effective for question answering tasks. The results show that
summaries generated by fine-tuned models lead to higher consistency in
usefulness across all three tasks, as rankings of fine-tuned summarization
systems are close across downstream tasks according to the proposed extrinsic
metrics. Summaries generated by models in the zero-shot setting, however, are
found to be biased towards the text classification and similarity assessment
tasks, due to its general and less detailed summary style. We further evaluate
the correlation of 14 intrinsic automatic metrics with human criteria and show
that intrinsic automatic metrics perform well in evaluating the usefulness of
summaries in the question-answering task, but are less effective in the other
two tasks. This highlights the limitations of relying solely on intrinsic
automatic metrics in evaluating the performance and usefulness of summaries.
- Abstract(参考訳): 自動テキスト要約の研究は人間と自動評価に大きく依存している。
近年の人間評価研究では,テキスト要約の汎用的品質,例えばインフォメーション性やコヒーレンスを判断する本質的評価手法が主に採用されているが,本研究は,テキスト要約の有用性評価に特化している。
本研究では,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの下流タスクを慎重に設計する。
本研究では,システムランキングとユーザ行動データを用いて,異なる要約モデルの性能評価を行う。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
以上の結果から,微調整された要約システムのランキングが下流のタスクに近接しているため,微調整されたモデルによって生成された要約は3つのタスク全体の有用性が高まることが示された。
しかし、ゼロショット設定でモデルによって生成された要約は、テキスト分類や類似度評価タスクに偏っていることが判明した。
さらに本研究は,14の内在的自動指標と人的基準との相関性を評価し,質問応答タスクにおける要約の有用性を評価する上で,内在的自動指標が有効であることを示す。
これは、要約のパフォーマンスと有用性を評価する際に、本質的な自動メトリクスにのみ依存する制限を強調している。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - SummScore: A Comprehensive Evaluation Metric for Summary Quality Based
on Cross-Encoder [12.913447457411317]
SummScoreはCrossEncoderに基づいた要約品質評価のための総合的なメトリクスである。
包括性と解釈性を改善するため、SummScoreは4つのきめ細かいサブモデルで構成されている。
SummScoreは上記の4次元の既存の評価指標と人間のスコアとの相関を著しく上回っている。
論文 参考訳(メタデータ) (2022-07-11T06:47:29Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - Metrics also Disagree in the Low Scoring Range: Revisiting Summarization
Evaluation Metrics [20.105119107290488]
ある模範的な研究は、ハイスコアの要約をランク付けする際、自動メトリクスは強く反対する、と結論付けている。
彼らの観察は、測定値が任意の狭いスコア範囲のサマリーのランク付けに一致しないという事実に起因していることが判明した。
要約のスコアリング範囲の幅は別として、測度間合意に影響を及ぼす他の3つの特性を解析する。
論文 参考訳(メタデータ) (2020-11-08T22:26:06Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。