論文の概要: Finding a Balanced Degree of Automation for Summary Evaluation
- arxiv url: http://arxiv.org/abs/2109.11503v1
- Date: Thu, 23 Sep 2021 17:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:16:09.236216
- Title: Finding a Balanced Degree of Automation for Summary Evaluation
- Title(参考訳): 要約評価のためのバランスのとれた自動化の探索
- Authors: Shiyue Zhang, Mohit Bansal
- Abstract要約: 本稿では,フレキシブル・セミオートマチック・自動要約評価指標を提案する。
半自動 Lite2Pyramid は参照のための再利用可能な人間ラベル付き概要コンテンツユニット(SCU)を保持する
完全自動Lite3Pyramidは、自動的に抽出されたセマンティックトリプルトユニット(STU)をSCUに置き換える
- 参考スコア(独自算出の注目度): 83.08810773093882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation for summarization tasks is reliable but brings in issues of
reproducibility and high costs. Automatic metrics are cheap and reproducible
but sometimes poorly correlated with human judgment. In this work, we propose
flexible semiautomatic to automatic summary evaluation metrics, following the
Pyramid human evaluation method. Semi-automatic Lite2Pyramid retains the
reusable human-labeled Summary Content Units (SCUs) for reference(s) but
replaces the manual work of judging SCUs' presence in system summaries with a
natural language inference (NLI) model. Fully automatic Lite3Pyramid further
substitutes SCUs with automatically extracted Semantic Triplet Units (STUs) via
a semantic role labeling (SRL) model. Finally, we propose in-between metrics,
Lite2.xPyramid, where we use a simple regressor to predict how well the STUs
can simulate SCUs and retain SCUs that are more difficult to simulate, which
provides a smooth transition and balance between automation and manual
evaluation. Comparing to 15 existing metrics, we evaluate human-metric
correlations on 3 existing meta-evaluation datasets and our newly-collected
PyrXSum (with 100/10 XSum examples/systems). It shows that Lite2Pyramid
consistently has the best summary-level correlations; Lite3Pyramid works better
than or comparable to other automatic metrics; Lite2.xPyramid trades off small
correlation drops for larger manual effort reduction, which can reduce costs
for future data collection. Our code and data are publicly available at:
https://github.com/ZhangShiyue/Lite2-3Pyramid
- Abstract(参考訳): 要約タスクに対する人的評価は信頼性が高いが、再現性やコストの問題がある。
自動メトリクスは安価で再現可能であるが、時には人間の判断と相関する。
本研究では,ピラミッド型人間評価手法に準拠した柔軟な半自動的自動要約評価指標を提案する。
半自動lite2pyramidは、参照のための再利用可能な人間ラベル要約コンテンツ単位(scu)を保ちながら、システム要約におけるscusの存在を自然言語推論(nli)モデルで判断する手作業を置き換える。
完全な自動Lite3Pyramidは、意味的役割ラベル付け(SRL)モデルを介して自動的に抽出されたセマンティックトリプルユニット(STU)をSCUに置き換える。
最後に、STUがSCUをいかにうまくシミュレートし、よりシミュレートしにくいSCUを維持できるかを予測するための単純な回帰器であるLite2.xPyramidを提案し、自動化と手動評価のスムーズな遷移とバランスを提供する。
既存の15の指標と比較して,既存の3つのメタ評価データセットと新たに収集したPyrXSum(100/10 XSumの例/システム)の人間メトリック相関を評価した。
Lite2.xPyramidは、手作業の削減のために小さな相関をオフにして、将来のデータ収集のコストを削減することができる。
私たちのコードとデータは、https://github.com/ZhangShiyue/Lite2-3Pyramidで公開されています。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - On the Role of Summary Content Units in Text Summarization Evaluation [39.054511238166796]
文章要約コンテンツ単位(SCU)を近似する2つの新しい戦略を示す。
STUとSMUは競合するが、最高の近似品質はSGUによって達成される。
また、簡単な文分解ベースライン(SSU)を通して、SCUが短い要約をランク付けする際に最も価値を提供するが、ランキングシステムや長い要約ではそれほど役に立たないことを示す。
論文 参考訳(メタデータ) (2024-04-02T07:09:44Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。