Fugu-MT 論文翻訳(概要): Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation Metrics using Measurement Theory

論文の概要: Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation Metrics using Measurement Theory

arxiv url: http://arxiv.org/abs/2305.14889v2
Date: Mon, 23 Oct 2023 01:02:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 11:33:31.120835
Title: Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation Metrics using Measurement Theory
Title（参考訳）: 評価メトリクスの評価:測定理論を用いたnlg評価メトリクス分析の枠組み
Authors: Ziang Xiao, Susu Zhang, Vivian Lai, Q. Vera Liao
Abstract要約: MetricEvalは、NLG評価指標の信頼性と妥当性を概念化し、評価するためのフレームワークである。我々は,信頼性の高い指標の設計,評価,解釈を推進し,堅牢で効果的なNLGモデルを推し進めることを目的としている。
参考スコア（独自算出の注目度）: 46.06645793520894
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We address a fundamental challenge in Natural Language Generation (NLG) model evaluation -- the design and evaluation of evaluation metrics. Recognizing the limitations of existing automatic metrics and noises from how current human evaluation was conducted, we propose MetricEval, a framework informed by measurement theory, the foundation of educational test design, for conceptualizing and evaluating the reliability and validity of NLG evaluation metrics. The framework formalizes the source of measurement error and offers statistical tools for evaluating evaluation metrics based on empirical data. With our framework, one can quantify the uncertainty of the metrics to better interpret the result. To exemplify the use of our framework in practice, we analyzed a set of evaluation metrics for summarization and identified issues related to conflated validity structure in human-eval and reliability in LLM-based metrics. Through MetricEval, we aim to promote the design, evaluation, and interpretation of valid and reliable metrics to advance robust and effective NLG models.
Abstract（参考訳）: 我々は,自然言語生成(NLG)モデル評価において,評価指標の設計と評価という根本的な課題に対処する。既存の自動測定基準と騒音の限界を,現在の人間評価の方法から認識し,nlg評価基準の信頼性と妥当性を概念化し評価するための,計測理論に基づくフレームワークであるmetricevalを提案する。このフレームワークは測定誤差の原因を定式化し、経験的データに基づいて評価指標を評価する統計ツールを提供する。私たちのフレームワークでは、メトリクスの不確かさを定量化して結果をよりよく解釈できます。筆者らは,本フレームワークの実践的使用を実証するため,要約のための評価指標のセットを分析し,LLM測定値におけるヒトの時間的妥当性と信頼性に関する問題点を明らかにした。 MetricEvalを通じて、信頼性の高いメトリクスの設計、評価、解釈を促進し、堅牢で効果的なNLGモデルを推し進めることを目指している。

関連論文リスト

Towards Evaluation for Real-World LLM Unlearning [16.31710864838019]
分布補正に基づく未学習評価(DCUE)と呼ばれる新しい指標を提案する。コアトークンを特定し、検証セットを使用して信頼性スコアの分布バイアスを修正する。結果はコルモゴロフ=スミルノフ検定を用いて定量化される。
論文参考訳（メタデータ） (2025-08-02T11:32:41Z)
Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文参考訳（メタデータ） (2025-06-19T00:01:43Z)
Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.261323452286554]
本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文参考訳（メタデータ） (2025-03-25T16:42:25Z)
Evaluating Step-by-step Reasoning Traces: A Survey [3.895864050325129]
評価基準を4つのトップレベルカテゴリ(基底性、妥当性、コヒーレンス、有用性)で分類することを提案する。次に、それらの実装に基づいてメトリクスを分類し、それぞれの基準を評価するために使用されるメトリクスを調査し、評価モデルが異なる基準をまたいで転送できるかどうかを調査する。
論文参考訳（メタデータ） (2025-02-17T19:58:31Z)
A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文参考訳（メタデータ） (2024-09-29T01:30:13Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization? [28.30641958347868]
4次元にわたる31個のNLGメトリクスを包含した包括的UE-TSベンチマークを導入する。このベンチマークは、3つのデータセット上で2つの大きな言語モデルと1つの事前訓練された言語モデルの不確実性推定能力を評価する。本研究は,複数の非相関性NLG指標と多様な不確実性推定手法を検討することの重要性を強調した。
論文参考訳（メタデータ） (2024-06-25T04:41:17Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications [26.857056013032263]
大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。我々の研究は、AIを活用した筆記支援システムの文脈において、モデル中心から人中心評価に焦点を移す。
論文参考訳（メタデータ） (2024-04-10T15:46:08Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。