論文の概要: Finding a Balanced Degree of Automation for Summary Evaluation
- arxiv url: http://arxiv.org/abs/2109.11503v1
- Date: Thu, 23 Sep 2021 17:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:16:09.236216
- Title: Finding a Balanced Degree of Automation for Summary Evaluation
- Title(参考訳): 要約評価のためのバランスのとれた自動化の探索
- Authors: Shiyue Zhang, Mohit Bansal
- Abstract要約: 本稿では,フレキシブル・セミオートマチック・自動要約評価指標を提案する。
半自動 Lite2Pyramid は参照のための再利用可能な人間ラベル付き概要コンテンツユニット(SCU)を保持する
完全自動Lite3Pyramidは、自動的に抽出されたセマンティックトリプルトユニット(STU)をSCUに置き換える
- 参考スコア(独自算出の注目度): 83.08810773093882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation for summarization tasks is reliable but brings in issues of
reproducibility and high costs. Automatic metrics are cheap and reproducible
but sometimes poorly correlated with human judgment. In this work, we propose
flexible semiautomatic to automatic summary evaluation metrics, following the
Pyramid human evaluation method. Semi-automatic Lite2Pyramid retains the
reusable human-labeled Summary Content Units (SCUs) for reference(s) but
replaces the manual work of judging SCUs' presence in system summaries with a
natural language inference (NLI) model. Fully automatic Lite3Pyramid further
substitutes SCUs with automatically extracted Semantic Triplet Units (STUs) via
a semantic role labeling (SRL) model. Finally, we propose in-between metrics,
Lite2.xPyramid, where we use a simple regressor to predict how well the STUs
can simulate SCUs and retain SCUs that are more difficult to simulate, which
provides a smooth transition and balance between automation and manual
evaluation. Comparing to 15 existing metrics, we evaluate human-metric
correlations on 3 existing meta-evaluation datasets and our newly-collected
PyrXSum (with 100/10 XSum examples/systems). It shows that Lite2Pyramid
consistently has the best summary-level correlations; Lite3Pyramid works better
than or comparable to other automatic metrics; Lite2.xPyramid trades off small
correlation drops for larger manual effort reduction, which can reduce costs
for future data collection. Our code and data are publicly available at:
https://github.com/ZhangShiyue/Lite2-3Pyramid
- Abstract(参考訳): 要約タスクに対する人的評価は信頼性が高いが、再現性やコストの問題がある。
自動メトリクスは安価で再現可能であるが、時には人間の判断と相関する。
本研究では,ピラミッド型人間評価手法に準拠した柔軟な半自動的自動要約評価指標を提案する。
半自動lite2pyramidは、参照のための再利用可能な人間ラベル要約コンテンツ単位(scu)を保ちながら、システム要約におけるscusの存在を自然言語推論(nli)モデルで判断する手作業を置き換える。
完全な自動Lite3Pyramidは、意味的役割ラベル付け(SRL)モデルを介して自動的に抽出されたセマンティックトリプルユニット(STU)をSCUに置き換える。
最後に、STUがSCUをいかにうまくシミュレートし、よりシミュレートしにくいSCUを維持できるかを予測するための単純な回帰器であるLite2.xPyramidを提案し、自動化と手動評価のスムーズな遷移とバランスを提供する。
既存の15の指標と比較して,既存の3つのメタ評価データセットと新たに収集したPyrXSum(100/10 XSumの例/システム)の人間メトリック相関を評価した。
Lite2.xPyramidは、手作業の削減のために小さな相関をオフにして、将来のデータ収集のコストを削減することができる。
私たちのコードとデータは、https://github.com/ZhangShiyue/Lite2-3Pyramidで公開されています。
関連論文リスト
- How Much Annotation is Needed to Compare Summarization Models? [31.899027054430153]
ニュース要約の文脈で好むモデルを選択するのに必要なテストサンプルサイズについて検討する。
自動メトリクスはより小さなサンプルサイズで安定しているが、人間の好みに応じてモデルの勝利率を適度に予測できるのは一部の自動メトリクスのみである。
論文 参考訳(メタデータ) (2024-02-28T23:34:51Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。