論文の概要: Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation
- arxiv url: http://arxiv.org/abs/2212.07981v1
- Date: Thu, 15 Dec 2022 17:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:42:00.124280
- Title: Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation
- Title(参考訳): 金標準の再検討:ロバストな人的評価による接地要約評価
- Authors: Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Yilun Zhao, Linyong Nan,
Ruilin Han, Simeng Han, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir
Radev
- Abstract要約: 既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。
本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
- 参考スコア(独自算出の注目度): 136.16507050034755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation is the foundation upon which the evaluation of both
summarization systems and automatic metrics rests. However, existing human
evaluation protocols and benchmarks for summarization either exhibit low
inter-annotator agreement or lack the scale needed to draw statistically
significant conclusions, and an in-depth analysis of human evaluation is
lacking. In this work, we address the shortcomings of existing summarization
evaluation along the following axes: 1) We propose a modified summarization
salience protocol, Atomic Content Units (ACUs), which relies on fine-grained
semantic units and allows for high inter-annotator agreement. 2) We curate the
Robust Summarization Evaluation (RoSE) benchmark, a large human evaluation
dataset consisting of over 22k summary-level annotations over state-of-the-art
systems on three datasets. 3) We compare our ACU protocol with three other
human evaluation protocols, underscoring potential confounding factors in
evaluation setups. 4) We evaluate existing automatic metrics using the
collected human annotations across evaluation protocols and demonstrate how our
benchmark leads to more statistically stable and significant results.
Furthermore, our findings have important implications for evaluating large
language models (LLMs), as we show that LLMs adjusted by human feedback (e.g.,
GPT-3.5) may overfit unconstrained human evaluation, which is affected by the
annotators' prior, input-agnostic preferences, calling for more robust,
targeted evaluation methods.
- Abstract(参考訳): 人間の評価は、要約システムと自動メトリクスの両方の評価が残る基盤である。
しかしながら、既存の人間評価プロトコルと要約のためのベンチマークでは、注釈間合意が低かったり、統計的に有意な結論を導き出すのに必要なスケールが欠如しており、人間評価の詳細な分析が不足している。
本稿では,既存の要約評価の欠点を,以下の軸に沿って解決する。
1)細粒度な意味単位に依存し,アノテーション間の高い合意を可能にする,改良された要約サリエンスプロトコルである原子コンテンツ単位(acus)を提案する。
2) ロバスト要約評価(RoSE)ベンチマークは,3つのデータセット上の最先端システムに対する22万以上の要約レベルのアノテーションからなる大規模な人間評価データセットである。
3)ACUプロトコルを他の3つの評価プロトコルと比較し,評価設定における潜在的なコンバウンディング要因を裏付ける。
4) 評価プロトコル間で収集された人的アノテーションを用いて既存の自動メトリクスを評価し, ベンチマークがより統計的に安定し, 有意な結果をもたらすことを示す。
さらに,人間のフィードバックによって調整されたLLM(例えばGPT-3.5)は,アノテータの事前の入力非依存的嗜好の影響を受け,より堅牢で目標とする評価手法を要求されるため,大きな言語モデル(LLM)を評価する上で重要な意味を持つ。
関連論文リスト
- ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。
評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文 参考訳(メタデータ) (2024-10-09T17:14:50Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Human-like Summarization Evaluation with ChatGPT [38.39767193442397]
ChatGPTは、Likertスケールスコアリング、ペアワイズ比較、ピラミッド、バイナリ事実性評価を用いて比較的スムーズにアノテーションを補完することができた。
これは、一部のデータセットで一般的に使用される自動評価指標よりも優れていた。
論文 参考訳(メタデータ) (2023-04-05T16:17:32Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。