Fugu-MT 論文翻訳(概要): A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics

論文の概要: A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics

arxiv url: http://arxiv.org/abs/2410.10030v1
Date: Sun, 13 Oct 2024 22:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 03:33:49.629907
Title: A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics
Title（参考訳）: グレーダの混合に向けてのステップ:既存自動評価指標の統計的解析
Authors: Yun Joon Soh, Jishen Zhao,
Abstract要約: 既存の評価指標の統計について検討し,その限界をよりよく理解する。潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。
参考スコア（独自算出の注目度）: 6.571049277167304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The explosion of open-sourced models and Question-Answering (QA) datasets emphasizes the importance of automated QA evaluation. We studied the statistics of the existing evaluation metrics for a better understanding of their limitations. By measuring the correlation coefficients of each evaluation metric concerning human-like evaluation score, we observed the following: (1) existing metrics have a high correlation among them concerning the question type (e.g., single word, single phrase, etc.), (2) no single metric can adequately estimate the human-like evaluation. As a potential solution, we discuss how a Mixture Of Grader could potentially improve the auto QA evaluator quality.
Abstract（参考訳）: オープンソースモデルとQAデータセットの爆発は、自動QA評価の重要性を強調している。既存の評価指標の統計を調査し,その限界をよりよく理解した。 1) 既存の指標は, 質問タイプ(例えば, 単語, 単語, 単語など)に関して高い相関性を持ち, 2) 人間の評価を適切に評価できる指標は存在しない。潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。

関連論文リスト

Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文参考訳（メタデータ） (2024-08-24T10:34:20Z)
An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。 MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。 94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文参考訳（メタデータ） (2024-05-30T23:04:53Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
QAScore -- An Unsupervised Unreferenced Metric for the Question Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。 QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文参考訳（メタデータ） (2022-10-09T19:00:39Z)
Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文参考訳（メタデータ） (2022-04-21T15:52:14Z)
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-16T00:38:35Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。