論文の概要: The QCET Taxonomy of Standard Quality Criterion Names and Definitions for the Evaluation of NLP Systems
- arxiv url: http://arxiv.org/abs/2509.22064v1
- Date: Fri, 26 Sep 2025 08:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.311552
- Title: The QCET Taxonomy of Standard Quality Criterion Names and Definitions for the Evaluation of NLP Systems
- Title(参考訳): 標準品質基準名称のQCET分類法とNLPシステム評価のための定義
- Authors: Anya Belz, Simon Mille, Craig Thomson,
- Abstract要約: 2つの評価が同等の時期を知らないということは、システム品質に関する信頼できる結論を引き出す能力が欠如しているということです。
NLPで報告された評価の3つの調査から品質基準名と定義の標準セットを導出するQCETを提案する。
- 参考スコア(独自算出の注目度): 11.876616474514828
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prior work has shown that two NLP evaluation experiments that report results for the same quality criterion name (e.g. Fluency) do not necessarily evaluate the same aspect of quality, and the comparability implied by the name can be misleading. Not knowing when two evaluations are comparable in this sense means we currently lack the ability to draw reliable conclusions about system quality on the basis of multiple, independently conducted evaluations. This in turn hampers the ability of the field to progress scientifically as a whole, a pervasive issue in NLP since its beginning (Sparck Jones, 1981). It is hard to see how the issue of unclear comparability can be fully addressed other than by the creation of a standard set of quality criterion names and definitions that the several hundred quality criterion names actually in use in the field can be mapped to, and grounded in. Taking a strictly descriptive approach, the QCET Quality Criteria for Evaluation Taxonomy derives a standard set of quality criterion names and definitions from three surveys of evaluations reported in NLP, and structures them into a hierarchy where each parent node captures common aspects of its child nodes. We present QCET and the resources it consists of, and discuss its three main uses in (i) establishing comparability of existing evaluations, (ii) guiding the design of new evaluations, and (iii) assessing regulatory compliance.
- Abstract(参考訳): 以前の研究では、同じ品質基準名(例えば、フルーエンシー)について結果を報告する2つのNLP評価実験は、必ずしも品質の同じ側面を評価せず、その名前によって示唆される可視性は誤解を招く可能性があることが示されている。
この意味において、2つの評価がいつ比較されるかわからないため、私たちは現在、複数の独立した評価に基づいて、システム品質に関する信頼できる結論を導き出す能力が欠如しています。
これにより、この分野全体が科学的に進歩する能力が損なわれ、NLPの開始以来の広範にわたる問題となった(Sparck Jones, 1981)。
フィールドで実際に使用されている数百の品質基準名と定義の標準セットを作成すれば、不明瞭なコンパラビリティの問題が、どのようにして完全に対処できるかは、見当がつかない。
QCET Quality Criteria for Evaluation Taxonomy(QCET Quality Criteria for Evaluation Taxonomy)は、NLPで報告された評価の3つの調査から、品質基準名と定義の標準セットを導出し、それぞれの親ノードが子ノードの共通の側面をキャプチャする階層に構造化する。
本稿では、QCETとその構成するリソースについて紹介し、その3つの主な用途について論じる。
一 既存の評価の相違性を確立すること。
二 新規評価の設計を指導すること、及び
三 規制遵守の評価
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - How to Evaluate Explainability? -- A Case for Three Criteria [0.0]
我々は,システムが提供するべき情報に関する3つの品質基準について,多分野のモチベーションを提供する。
本研究の目的は, 適切な評価方法が考案されるなど, これらの基準に関する議論を加速させることである。
論文 参考訳(メタデータ) (2022-09-01T11:22:50Z) - A Meta Survey of Quality Evaluation Criteria in Explanation Methods [0.5801044612920815]
説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。
最も正確なAIモデルは透明性と理解性の低い不透明であるため、バイアスの検出と不確実性の制御には説明が不可欠である。
説明方法の品質を評価する際には、選択すべき基準が多々ある。
論文 参考訳(メタデータ) (2022-03-25T22:24:21Z) - Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文 参考訳(メタデータ) (2021-09-13T08:26:26Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - How Trustworthy are Performance Evaluations for Basic Vision Tasks? [46.0590176230731]
本稿では,オブジェクトの集合,オブジェクト検出,インスタンスレベルのセグメンテーション,マルチオブジェクトトラッキングを含む基本的な視覚タスクの性能評価基準について検討する。
既存の基準によるアルゴリズムのランキングは、パラメータの選択によって変動し、その評価が信頼できない。
この研究は、(i)信頼性のパラメータに対する堅牢性、(ii)健全性テストにおける文脈意味性、(iii)計量特性のような数学的要求との整合性を必要とする性能基準に対する信頼性の概念を示唆する。
論文 参考訳(メタデータ) (2020-08-08T14:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。