論文の概要: Better than Average: Paired Evaluation of NLP Systems
- arxiv url: http://arxiv.org/abs/2110.10746v1
- Date: Wed, 20 Oct 2021 19:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 14:08:35.705204
- Title: Better than Average: Paired Evaluation of NLP Systems
- Title(参考訳): 平均より優れている:nlpシステムのペア化評価
- Authors: Maxime Peyrard, Wei Zhao, Steffen Eger, Robert West
- Abstract要約: 評価スコアのインスタンスレベルのペアリングを考慮に入れることの重要性を示す。
平均, 中央値, BT と 2 種類のBT (Elo と TrueSkill) を用いて評価スコアの完全な解析を行うための実用的なツールをリリースする。
- 参考スコア(独自算出の注目度): 31.311553903738798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation in NLP is usually done by comparing the scores of competing
systems independently averaged over a common set of test instances. In this
work, we question the use of averages for aggregating evaluation scores into a
final number used to decide which system is best, since the average, as well as
alternatives such as the median, ignores the pairing arising from the fact that
systems are evaluated on the same test instances. We illustrate the importance
of taking the instance-level pairing of evaluation scores into account and
demonstrate, both theoretically and empirically, the advantages of aggregation
methods based on pairwise comparisons, such as the Bradley-Terry (BT) model, a
mechanism based on the estimated probability that a given system scores better
than another on the test set. By re-evaluating 296 real NLP evaluation setups
across four tasks and 18 evaluation metrics, we show that the choice of
aggregation mechanism matters and yields different conclusions as to which
systems are state of the art in about 30% of the setups. To facilitate the
adoption of pairwise evaluation, we release a practical tool for performing the
full analysis of evaluation scores with the mean, median, BT, and two variants
of BT (Elo and TrueSkill), alongside functionality for appropriate statistical
testing.
- Abstract(参考訳): NLPの評価は通常、テストインスタンスの共通セットに対して独立に平均された競合システムのスコアを比較することで行われる。
そこで本研究では,評価スコアの集計に平均値を使うことを疑問視する。平均値や中央値などの代替案は,同じテストインスタンスでシステムが評価されるという事実から生じるペアリングを無視しているため,どのシステムが最適かを決定するのに使用される最終数に平均値を用いる。
評価スコアのインスタンスレベルでのペアリングを考慮に入れ、理論上および経験上、テストセットにおいて与えられたシステムが他のシステムよりも優れたスコアを推定する確率に基づくメカニズムであるbradley-terry (bt) モデルのようなペア比較に基づく集約法の利点を実証することの重要性を示す。
4つのタスクと18つの評価指標にまたがって296個の実NLP評価設定を再評価することにより、集約機構の選択が重要であり、どのシステムが技術の現状であるかを約30%で異なる結論を得ることを示す。
平均, 中央値, BT, 2種類のBT(EloとTrueSkill)を用いて評価スコアの完全な分析を行うための実用的ツールを, 適切な統計的検査のための機能とともにリリースする。
関連論文リスト
- Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling [50.08315607506652]
信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
実験の結果、CASFは93.18%のシステム認識精度が得られた。
論文 参考訳(メタデータ) (2024-06-12T07:44:36Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。