論文の概要: Common Metrics to Benchmark Human-Machine Teams (HMT): A Review
- arxiv url: http://arxiv.org/abs/2008.04855v1
- Date: Tue, 11 Aug 2020 16:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:38:43.040227
- Title: Common Metrics to Benchmark Human-Machine Teams (HMT): A Review
- Title(参考訳): HMT(Human-Machine Teams)のベンチマーク基準 - レビュー
- Authors: Praveen Damacharla, Ahmad Y. Javaid, Jennie J. Gallimore, Vijay K.
Devabhaktuni
- Abstract要約: メトリクスは、どんなシステムでもベンチマークを作成できるツールです。
HMTシステムを開発するためのベンチマークのセットは合意されていない。
このレビューの主な焦点は、HMTの異なるセグメントで使用されるメトリクスの特定を目的とした詳細な調査を行うことである。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant amount of work is invested in human-machine teaming (HMT)
across multiple fields. Accurately and effectively measuring system performance
of an HMT is crucial for moving the design of these systems forward. Metrics
are the enabling tools to devise a benchmark in any system and serve as an
evaluation platform for assessing the performance, along with the verification
and validation, of a system. Currently, there is no agreed-upon set of
benchmark metrics for developing HMT systems. Therefore, identification and
classification of common metrics are imperative to create a benchmark in the
HMT field. The key focus of this review is to conduct a detailed survey aimed
at identification of metrics employed in different segments of HMT and to
determine the common metrics that can be used in the future to benchmark HMTs.
We have organized this review as follows: identification of metrics used in
HMTs until now, and classification based on functionality and measuring
techniques. Additionally, we have also attempted to analyze all the identified
metrics in detail while classifying them as theoretical, applied, real-time,
non-real-time, measurable, and observable metrics. We conclude this review with
a detailed analysis of the identified common metrics along with their usage to
benchmark HMTs.
- Abstract(参考訳): 複数の分野にわたるHMT(Human-machine Teaming)に投資している。
HMTのシステム性能を正確にかつ効果的に測定することは,これらのシステムの設計を前進させる上で重要である。
メトリクスは、任意のシステムでベンチマークを作成できるツールであり、システムの検証と検証とともに、パフォーマンスを評価するための評価プラットフォームとして機能する。
現在、HMTシステムを開発するためのベンチマークのセットは合意されていない。
したがって、HMT分野のベンチマークを作成するためには、共通メトリクスの識別と分類が不可欠である。
このレビューの主な焦点は、HMTの異なるセグメントで使用されるメトリクスの特定を目的とした詳細な調査を行い、将来HMTのベンチマークに使用できる一般的なメトリクスを決定することである。
我々は,これまでHMTで使用されていたメトリクスの識別と,機能と測定技術に基づく分類について,このレビューを整理した。
さらに、すべての特定されたメトリクスを、理論、適用、リアルタイム、非リアルタイム、測定可能、観測可能なメトリクスに分類しながら、詳細に分析する試みも行っています。
本総説では,HMTのベンチマークにおける使用状況とともに,同定された共通指標の詳細な分析を行った。
関連論文リスト
- From Jack of All Trades to Master of One: Specializing LLM-based Autoraters to a Test Set [17.60104729231524]
本研究では,テストセットの履歴評価を活用して,インコンテキスト学習の例を構築することによって,与えられたテストセットに対してAutoraterを専門化する手法を設計する。
WMT'23 と WMT'24 テストセットにおいて, 機械翻訳評価の細粒度化作業におけるスペシャリスト手法の評価を行い, 最先端の XCOMET 測定値の 54% と 119% を劇的に上回っていることを示す。
論文 参考訳(メタデータ) (2024-11-23T00:02:21Z) - MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration [14.636927775315783]
本稿では,機械翻訳(MT)タスクを評価するためのメタメトリックスMTを提案する。
WMT24メトリック共有タスクデータセットの実験は、MetaMetrics-MTが既存のベースライン全てより優れていることを示す。
論文 参考訳(メタデータ) (2024-11-01T06:34:30Z) - Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - HOTA: A Higher Order Metric for Evaluating Multi-Object Tracking [48.497889944886516]
マルチオブジェクト追跡(MOT)は評価が難しいことで知られている。
以前のメトリクスは、検出または関連性の重要性を過度に強調します。
本稿では, 正確な検出, 関連付け, 位置決めの両立を図った新しいMOT評価指標HOTAを提案する。
論文 参考訳(メタデータ) (2020-09-16T15:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。