論文の概要: Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation
Metrics using Measurement Theory
- arxiv url: http://arxiv.org/abs/2305.14889v2
- Date: Mon, 23 Oct 2023 01:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:33:31.120835
- Title: Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation
Metrics using Measurement Theory
- Title(参考訳): 評価メトリクスの評価:測定理論を用いたnlg評価メトリクス分析の枠組み
- Authors: Ziang Xiao, Susu Zhang, Vivian Lai, Q. Vera Liao
- Abstract要約: MetricEvalは、NLG評価指標の信頼性と妥当性を概念化し、評価するためのフレームワークである。
我々は,信頼性の高い指標の設計,評価,解釈を推進し,堅牢で効果的なNLGモデルを推し進めることを目的としている。
- 参考スコア(独自算出の注目度): 46.06645793520894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address a fundamental challenge in Natural Language Generation (NLG) model
evaluation -- the design and evaluation of evaluation metrics. Recognizing the
limitations of existing automatic metrics and noises from how current human
evaluation was conducted, we propose MetricEval, a framework informed by
measurement theory, the foundation of educational test design, for
conceptualizing and evaluating the reliability and validity of NLG evaluation
metrics. The framework formalizes the source of measurement error and offers
statistical tools for evaluating evaluation metrics based on empirical data.
With our framework, one can quantify the uncertainty of the metrics to better
interpret the result. To exemplify the use of our framework in practice, we
analyzed a set of evaluation metrics for summarization and identified issues
related to conflated validity structure in human-eval and reliability in
LLM-based metrics. Through MetricEval, we aim to promote the design,
evaluation, and interpretation of valid and reliable metrics to advance robust
and effective NLG models.
- Abstract(参考訳): 我々は,自然言語生成(NLG)モデル評価において,評価指標の設計と評価という根本的な課題に対処する。
既存の自動測定基準と騒音の限界を,現在の人間評価の方法から認識し,nlg評価基準の信頼性と妥当性を概念化し評価するための,計測理論に基づくフレームワークであるmetricevalを提案する。
このフレームワークは測定誤差の原因を定式化し、経験的データに基づいて評価指標を評価する統計ツールを提供する。
私たちのフレームワークでは、メトリクスの不確かさを定量化して結果をよりよく解釈できます。
筆者らは,本フレームワークの実践的使用を実証するため,要約のための評価指標のセットを分析し,LLM測定値におけるヒトの時間的妥当性と信頼性に関する問題点を明らかにした。
MetricEvalを通じて、信頼性の高いメトリクスの設計、評価、解釈を促進し、堅牢で効果的なNLGモデルを推し進めることを目指している。
関連論文リスト
- From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications [26.857056013032263]
大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。
我々の研究は、AIを活用した筆記支援システムの文脈において、モデル中心から人中心評価に焦点を移す。
論文 参考訳(メタデータ) (2024-04-10T15:46:08Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。