論文の概要: Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers
- arxiv url: http://arxiv.org/abs/2108.00308v1
- Date: Sat, 31 Jul 2021 18:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 12:48:13.346299
- Title: Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers
- Title(参考訳): 創造的NLGシステムの人的評価:最近の論文の学際的調査
- Authors: Mika H\"am\"al\"ainen and Khalid Alnajjar
- Abstract要約: 創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We survey human evaluation in papers presenting work on creative natural
language generation that have been published in INLG 2020 and ICCC 2020. The
most typical human evaluation method is a scaled survey, typically on a 5 point
scale, while many other less common methods exist. The most commonly evaluated
parameters are meaning, syntactic correctness, novelty, relevance and emotional
value, among many others. Our guidelines for future evaluation include clearly
defining the goal of the generative system, asking questions as concrete as
possible, testing the evaluation setup, using multiple different evaluation
setups, reporting the entire evaluation process and potential biases clearly,
and finally analyzing the evaluation results in a more profound way than merely
reporting the most typical statistics.
- Abstract(参考訳): 我々は,INLG 2020 と ICCC 2020 で発表された創造的自然言語生成に関する論文の中で,人間の評価を調査した。
最も一般的な人間の評価方法は、通常5ポイントのスケールでスケールされたサーベイであるが、他の多くのあまり一般的ではない方法が存在する。
最もよく評価されるパラメータは、意味、構文的正しさ、新規性、関連性、感情的価値などである。
今後の評価の指針は, 生成システムの目標を明確に定義すること, できるだけ具体的な質問をすること, 評価設定を複数の異なる評価設定を用いてテストすること, 評価プロセス全体と潜在的なバイアスを明確に報告すること, そして, 評価結果を最も典型的な統計を報告することよりも, より深い方法で分析することである。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。