論文の概要: OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics
- arxiv url: http://arxiv.org/abs/2105.08920v1
- Date: Wed, 19 May 2021 04:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:53:38.634000
- Title: OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics
- Title(参考訳): openmeva: オープンエンドのストーリー生成メトリクスを評価するベンチマーク
- Authors: Jian Guan, Zhexin Zhang, Zhuoer Feng, Zitao Liu, Wenbiao Ding, Xiaoxi
Mao, Changjie Fan, Minlie Huang
- Abstract要約: オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
- 参考スコア(独自算出の注目度): 53.779709191191685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic metrics are essential for developing natural language generation
(NLG) models, particularly for open-ended language generation tasks such as
story generation. However, existing automatic metrics are observed to correlate
poorly with human evaluation. The lack of standardized benchmark datasets makes
it difficult to fully evaluate the capabilities of a metric and fairly compare
different metrics. Therefore, we propose OpenMEVA, a benchmark for evaluating
open-ended story generation metrics. OpenMEVA provides a comprehensive test
suite to assess the capabilities of metrics, including (a) the correlation with
human judgments, (b) the generalization to different model outputs and
datasets, (c) the ability to judge story coherence, and (d) the robustness to
perturbations. To this end, OpenMEVA includes both manually annotated stories
and auto-constructed test examples. We evaluate existing metrics on OpenMEVA
and observe that they have poor correlation with human judgments, fail to
recognize discourse-level incoherence, and lack inferential knowledge (e.g.,
causal order between events), the generalization ability and robustness. Our
study presents insights for developing NLG models and metrics in further
research.
- Abstract(参考訳): 自動メトリクスは、自然言語生成(NLG)モデル、特にストーリー生成のようなオープンな言語生成タスクの開発に不可欠である。
しかし、既存の自動測定基準は人間の評価と相関が低い。
ベンチマークデータセットが標準化されていないため、メトリクスの能力を完全に評価し、異なるメトリクスを比較的比較することは困難である。
そこで我々はオープンエンドのストーリー生成指標を評価するベンチマークOpenMEVAを提案する。
OpenMEVAは、(a)人間の判断との相関、(b)異なるモデル出力とデータセットへの一般化、(c)ストーリーコヒーレンスを判断する能力、(d)摂動に対する堅牢性など、メトリクスの能力を評価するための包括的なテストスイートを提供する。
この目的のために、OpenMEVAは手動で注釈付けされたストーリーと自動構築されたテスト例の両方を含んでいる。
我々は、OpenMEVA上の既存の指標を評価し、人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識(イベント間の因果順序など)、一般化能力、堅牢性を欠いていることを観察する。
本研究は,nlgモデルとメトリクスの開発に関する知見を提供する。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。