論文の概要: Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation
- arxiv url: http://arxiv.org/abs/2212.07981v2
- Date: Tue, 6 Jun 2023 07:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:14:19.761632
- Title: Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation
- Title(参考訳): 金標準の再検討:ロバストな人的評価による接地要約評価
- Authors: Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Yilun Zhao, Linyong Nan,
Ruilin Han, Simeng Han, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir
Radev
- Abstract要約: 要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
- 参考スコア(独自算出の注目度): 136.16507050034755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation is the foundation upon which the evaluation of both
summarization systems and automatic metrics rests. However, existing human
evaluation studies for summarization either exhibit a low inter-annotator
agreement or have insufficient scale, and an in-depth analysis of human
evaluation is lacking. Therefore, we address the shortcomings of existing
summarization evaluation along the following axes: (1) We propose a modified
summarization salience protocol, Atomic Content Units (ACUs), which is based on
fine-grained semantic units and allows for a high inter-annotator agreement.
(2) We curate the Robust Summarization Evaluation (RoSE) benchmark, a large
human evaluation dataset consisting of 22,000 summary-level annotations over 28
top-performing systems on three datasets. (3) We conduct a comparative study of
four human evaluation protocols, underscoring potential confounding factors in
evaluation setups. (4) We evaluate 50 automatic metrics and their variants
using the collected human annotations across evaluation protocols and
demonstrate how our benchmark leads to more statistically stable and
significant results. The metrics we benchmarked include recent methods based on
large language models (LLMs), GPTScore and G-Eval. Furthermore, our findings
have important implications for evaluating LLMs, as we show that LLMs adjusted
by human feedback (e.g., GPT-3.5) may overfit unconstrained human evaluation,
which is affected by the annotators' prior, input-agnostic preferences, calling
for more robust, targeted evaluation methods.
- Abstract(参考訳): 人間の評価は、要約システムと自動メトリクスの両方の評価が残る基盤である。
しかし、既存の要約のための人間評価研究では、注釈間合意が低かったり、スケールが不十分であったり、人間評価の詳細な分析が不足している。
そこで我々は,(1)細粒度セマンティック・ユニットをベースとしたアノテータ間合意を高い精度で実現可能な改良された要約サリエンスプロトコルであるAtomic Content Units (ACUs)を提案する。
2) ロバスト要約評価(RoSE)ベンチマークは,3つのデータセット上で28の上位パフォーマンスシステム上で22,000の要約レベルのアノテーションからなる大規模な人間評価データセットである。
(3)4つの評価プロトコルの比較研究を行い、評価設定における潜在的な共起要因を裏付ける。
(4) 評価プロトコル間で収集された人的アノテーションを用いて50の自動メトリクスとその変種を評価し, ベンチマークがより統計的に安定かつ有意な結果をもたらすことを示す。
私たちがベンチマークしたメトリクスには、大規模言語モデル(LLM)に基づく最近の手法、GPTScore、G-Evalが含まれる。
さらに,LLMの評価には重要な意味があり,人間のフィードバック(例えばGPT-3.5)によって調整されたLCMは,アノテータの事前の入力非依存的嗜好に影響され,より頑健で目標とする評価手法が求められている。
関連論文リスト
- One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [31.587877806983748]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Human-like Summarization Evaluation with ChatGPT [38.39767193442397]
ChatGPTは、Likertスケールスコアリング、ペアワイズ比較、ピラミッド、バイナリ事実性評価を用いて比較的スムーズにアノテーションを補完することができた。
これは、一部のデータセットで一般的に使用される自動評価指標よりも優れていた。
論文 参考訳(メタデータ) (2023-04-05T16:17:32Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [78.18992019606533]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、21のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見する。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。