論文の概要: HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation
- arxiv url: http://arxiv.org/abs/2306.07554v1
- Date: Tue, 13 Jun 2023 06:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:50:15.274399
- Title: HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation
- Title(参考訳): HAUSER:シミュレーション生成の全体的かつ自動評価に向けて
- Authors: Qianyu He, Yikai Zhang, Jiaqing Liang, Yuncheng Huang, Yanghua Xiao,
Yunwen Chen
- Abstract要約: 優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
- 参考スコア(独自算出の注目度): 18.049566239050762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Similes play an imperative role in creative writing such as story and
dialogue generation. Proper evaluation metrics are like a beacon guiding the
research of simile generation (SG). However, it remains under-explored as to
what criteria should be considered, how to quantify each criterion into
metrics, and whether the metrics are effective for comprehensive, efficient,
and reliable SG evaluation. To address the issues, we establish HAUSER, a
holistic and automatic evaluation system for the SG task, which consists of
five criteria from three perspectives and automatic metrics for each criterion.
Through extensive experiments, we verify that our metrics are significantly
more correlated with human ratings from each perspective compared with prior
automatic metrics.
- Abstract(参考訳): シミュラは物語や対話生成といった創造的な執筆において重要な役割を担っている。
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものです。
しかしながら、どの基準を考慮するべきか、それぞれの基準をメトリクスに定量化する方法、メトリクスが包括的、効率的、信頼性の高いSG評価に有効であるかどうかについては、未検討のままである。
この問題に対処するために,3つの視点から5つの基準と各基準に対する自動指標からなる,sgタスクの総合的自動評価システムであるhauserを確立した。
広範な実験を通じて,我々の測定値が,以前の自動測定値と比較して,各観点からの人間の評価値と有意に相関していることを確認した。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation
of Story Generation [9.299255585127158]
人間がどの評価基準を使うべきかについては合意がない。
自動基準がどの程度それらと相関しているかは分析されていない。
HANNAにより、72の自動測定値と人間の基準との相関関係を定量的に評価できる。
論文 参考訳(メタデータ) (2022-08-24T16:35:32Z) - Deconstruct to Reconstruct a Configurable Evaluation Metric for
Open-Domain Dialogue Systems [36.73648357051916]
オープンドメイン対話では、全体的な品質は、関連性、特異性、共感など、さまざまな側面から成り立っている。
既存のメトリクスは、そのような柔軟性に対処するように設計されていません。
そこで本研究では,USL-Hと呼ばれる単一メトリクスを得るために,各アスペクトを合成する簡単な手法を提案する。
論文 参考訳(メタデータ) (2020-11-01T11:34:50Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。