論文の概要: How Trustworthy are Performance Evaluations for Basic Vision Tasks?
- arxiv url: http://arxiv.org/abs/2008.03533v4
- Date: Fri, 22 Jul 2022 09:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:04:20.586120
- Title: How Trustworthy are Performance Evaluations for Basic Vision Tasks?
- Title(参考訳): 基本ビジョンタスクのパフォーマンス評価はどの程度信頼できるか?
- Authors: Tran Thien Dat Nguyen, Hamid Rezatofighi, Ba-Ngu Vo, Ba-Tuong Vo,
Silvio Savarese, Ian Reid
- Abstract要約: 本稿では,オブジェクトの集合,オブジェクト検出,インスタンスレベルのセグメンテーション,マルチオブジェクトトラッキングを含む基本的な視覚タスクの性能評価基準について検討する。
既存の基準によるアルゴリズムのランキングは、パラメータの選択によって変動し、その評価が信頼できない。
この研究は、(i)信頼性のパラメータに対する堅牢性、(ii)健全性テストにおける文脈意味性、(iii)計量特性のような数学的要求との整合性を必要とする性能基準に対する信頼性の概念を示唆する。
- 参考スコア(独自算出の注目度): 46.0590176230731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines performance evaluation criteria for basic vision tasks
involving sets of objects namely, object detection, instance-level segmentation
and multi-object tracking. The rankings of algorithms by an existing criterion
can fluctuate with different choices of parameters, e.g. Intersection over
Union (IoU) threshold, making their evaluations unreliable. More importantly,
there is no means to verify whether we can trust the evaluations of a
criterion. This work suggests a notion of trustworthiness for performance
criteria, which requires (i) robustness to parameters for reliability, (ii)
contextual meaningfulness in sanity tests, and (iii) consistency with
mathematical requirements such as the metric properties. We observe that these
requirements were overlooked by many widely-used criteria, and explore
alternative criteria using metrics for sets of shapes. We also assess all these
criteria based on the suggested requirements for trustworthiness.
- Abstract(参考訳): 本稿では,オブジェクト検出,インスタンスレベルのセグメンテーション,マルチオブジェクト追跡といった,オブジェクト集合を含む基本ビジョンタスクの性能評価基準について検討する。
既存の基準によるアルゴリズムのランク付けはパラメータの異なる選択(例えばiou(intersection over union)しきい値など)で変動し、それらの評価は信頼できない。
さらに重要なことに、基準の評価を信頼できるかどうかを検証する手段はない。
この研究は、パフォーマンス基準に対する信頼性の概念を示唆している。
一 信頼性のためのパラメータに対する堅牢性
(ii)衛生検査における文脈的有意義性、及び
(iii)計量特性などの数学的要件との整合性。
これらの要件は多くの広く使用されている基準で見落とされ、形状の集合の指標を用いて代替基準を探索する。
また,これらの基準を信頼性の要求条件に基づいて評価した。
関連論文リスト
- CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文 参考訳(メタデータ) (2021-09-13T08:26:26Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。