Fugu-MT 論文翻訳(概要): How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation

論文の概要: How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation

arxiv url: http://arxiv.org/abs/2101.11298v1
Date: Wed, 27 Jan 2021 10:14:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-01 19:41:13.938107
Title: How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation
Title（参考訳）: Summarizerの評価方法:手話的品質評価のための学習設計と統計的分析
Authors: Julius Steen and Katja Markert
Abstract要約: 評価手法の最良の選択は、ある側面から別の側面まで様々であることを示す。その結果,アノテータの総数は研究力に強い影響を及ぼす可能性が示唆された。現在の統計解析手法では、I型エラー率を最大8倍にすることができる。
参考スコア（独自算出の注目度）: 3.624563211765782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Manual evaluation is essential to judge progress on automatic text summarization. However, we conduct a survey on recent summarization system papers that reveals little agreement on how to perform such evaluation studies. We conduct two evaluation experiments on two aspects of summaries' linguistic quality (coherence and repetitiveness) to compare Likert-type and ranking annotations and show that best choice of evaluation method can vary from one aspect to another. In our survey, we also find that study parameters such as the overall number of annotators and distribution of annotators to annotation items are often not fully reported and that subsequent statistical analysis ignores grouping factors arising from one annotator judging multiple summaries. Using our evaluation experiments, we show that the total number of annotators can have a strong impact on study power and that current statistical analysis methods can inflate type I error rates up to eight-fold. In addition, we highlight that for the purpose of system comparison the current practice of eliciting multiple judgements per summary leads to less powerful and reliable annotations given a fixed study budget.
Abstract（参考訳）: 自動要約の進捗判定には手作業による評価が不可欠である。しかし,最近の要約システム論文について調査を行い,評価研究の実施方法についてはほとんど一致していない。要約の言語的品質(コヒーレンスと反復性)の2つの側面について評価実験を行い、Likert型とランク付けアノテーションを比較し、評価方法の最良の選択が1つの側面から別の側面に異なることを示す。また,アノテータの総数やアノテーション項目に対するアノテータの分布などの研究パラメータが完全には報告されないことが多く,その後の統計分析では,複数のサマリーを判断するアノテータから生じるグループ化要因を無視することがわかった。評価実験により,アノテータの総数は研究力に強い影響を及ぼし,現在の統計解析手法では,I型誤り率を最大8倍に向上させることができることを示した。さらに, システム比較において, 要約ごとに複数の判断を下すという現在の実践は, 一定の研究予算が与えられた場合, より強力で信頼性の高いアノテーションに結びつくことを強調した。

関連論文リスト

Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文参考訳（メタデータ） (2022-09-14T09:42:19Z)
Learning Opinion Summarizers by Selecting Informative Reviews [81.47506952645564]
31,000以上の製品のユーザレビューと組み合わせた大規模な要約データセットを収集し、教師付きトレーニングを可能にします。多くのレビューの内容は、人間が書いた要約には反映されず、したがってランダムなレビューサブセットで訓練された要約者は幻覚する。我々は、これらのサブセットで表現された意見を要約し、レビューの情報的サブセットを選択するための共同学習としてタスクを定式化する。
論文参考訳（メタデータ） (2021-09-09T15:01:43Z)
A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文参考訳（メタデータ） (2021-06-26T05:11:27Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-05T05:04:14Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)
SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文参考訳（メタデータ） (2020-05-13T15:40:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。