論文の概要: Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation
of Story Generation
- arxiv url: http://arxiv.org/abs/2208.11646v1
- Date: Wed, 24 Aug 2022 16:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:36:10.017577
- Title: Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation
of Story Generation
- Title(参考訳): 人的基準と自動指標について:ストーリー生成評価のベンチマーク
- Authors: Cyril Chhun, Pierre Colombo, Chlo\'e Clavel, Fabian M. Suchanek
- Abstract要約: 人間がどの評価基準を使うべきかについては合意がない。
自動基準がどの程度それらと相関しているかは分析されていない。
HANNAにより、72の自動測定値と人間の基準との相関関係を定量的に評価できる。
- 参考スコア(独自算出の注目度): 9.299255585127158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on Automatic Story Generation (ASG) relies heavily on human and
automatic evaluation. However, there is no consensus on which human evaluation
criteria to use, and no analysis of how well automatic criteria correlate with
them. In this paper, we propose to re-evaluate ASG evaluation. We introduce a
set of 6 orthogonal and comprehensive human criteria, carefully motivated by
the social sciences literature. We also present HANNA, an annotated dataset of
1,056 stories produced by 10 different ASG systems. HANNA allows us to
quantitatively evaluate the correlations of 72 automatic metrics with human
criteria. Our analysis highlights the weaknesses of current metrics for ASG and
allows us to formulate practical recommendations for ASG evaluation.
- Abstract(参考訳): 自動ストーリー生成(ASG)の研究は人間と自動評価に大きく依存している。
しかし,どの評価基準を使うべきかの合意は得られず,自動評価基準がどの程度の相関性を持つかの分析は行われていない。
本稿では,ASG評価の再評価を提案する。
我々は,社会科学文献に注意深く動機づけられた,直交的で包括的な6つの人間の基準を導入する。
また、10種類のASGシステムによって生成される1,056ストーリーの注釈付きデータセットであるHANNAも提示する。
HANNAにより、72の自動測定値と人間の基準との相関を定量的に評価できる。
分析では,現在のasg指標の弱点を強調し,asg評価のための実用的な勧告を定式化する。
関連論文リスト
- The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文 参考訳(メタデータ) (2021-09-13T08:26:26Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。