論文の概要: Common Metrics to Benchmark Human-Machine Teams (HMT): A Review
- arxiv url: http://arxiv.org/abs/2008.04855v1
- Date: Tue, 11 Aug 2020 16:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:38:43.040227
- Title: Common Metrics to Benchmark Human-Machine Teams (HMT): A Review
- Title(参考訳): HMT(Human-Machine Teams)のベンチマーク基準 - レビュー
- Authors: Praveen Damacharla, Ahmad Y. Javaid, Jennie J. Gallimore, Vijay K.
Devabhaktuni
- Abstract要約: メトリクスは、どんなシステムでもベンチマークを作成できるツールです。
HMTシステムを開発するためのベンチマークのセットは合意されていない。
このレビューの主な焦点は、HMTの異なるセグメントで使用されるメトリクスの特定を目的とした詳細な調査を行うことである。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant amount of work is invested in human-machine teaming (HMT)
across multiple fields. Accurately and effectively measuring system performance
of an HMT is crucial for moving the design of these systems forward. Metrics
are the enabling tools to devise a benchmark in any system and serve as an
evaluation platform for assessing the performance, along with the verification
and validation, of a system. Currently, there is no agreed-upon set of
benchmark metrics for developing HMT systems. Therefore, identification and
classification of common metrics are imperative to create a benchmark in the
HMT field. The key focus of this review is to conduct a detailed survey aimed
at identification of metrics employed in different segments of HMT and to
determine the common metrics that can be used in the future to benchmark HMTs.
We have organized this review as follows: identification of metrics used in
HMTs until now, and classification based on functionality and measuring
techniques. Additionally, we have also attempted to analyze all the identified
metrics in detail while classifying them as theoretical, applied, real-time,
non-real-time, measurable, and observable metrics. We conclude this review with
a detailed analysis of the identified common metrics along with their usage to
benchmark HMTs.
- Abstract(参考訳): 複数の分野にわたるHMT(Human-machine Teaming)に投資している。
HMTのシステム性能を正確にかつ効果的に測定することは,これらのシステムの設計を前進させる上で重要である。
メトリクスは、任意のシステムでベンチマークを作成できるツールであり、システムの検証と検証とともに、パフォーマンスを評価するための評価プラットフォームとして機能する。
現在、HMTシステムを開発するためのベンチマークのセットは合意されていない。
したがって、HMT分野のベンチマークを作成するためには、共通メトリクスの識別と分類が不可欠である。
このレビューの主な焦点は、HMTの異なるセグメントで使用されるメトリクスの特定を目的とした詳細な調査を行い、将来HMTのベンチマークに使用できる一般的なメトリクスを決定することである。
我々は,これまでHMTで使用されていたメトリクスの識別と,機能と測定技術に基づく分類について,このレビューを整理した。
さらに、すべての特定されたメトリクスを、理論、適用、リアルタイム、非リアルタイム、測定可能、観測可能なメトリクスに分類しながら、詳細に分析する試みも行っています。
本総説では,HMTのベンチマークにおける使用状況とともに,同定された共通指標の詳細な分析を行った。
関連論文リスト
- Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - HOTA: A Higher Order Metric for Evaluating Multi-Object Tracking [48.497889944886516]
マルチオブジェクト追跡(MOT)は評価が難しいことで知られている。
以前のメトリクスは、検出または関連性の重要性を過度に強調します。
本稿では, 正確な検出, 関連付け, 位置決めの両立を図った新しいMOT評価指標HOTAを提案する。
論文 参考訳(メタデータ) (2020-09-16T15:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。