論文の概要: A global analysis of metrics used for measuring performance in natural
language processing
- arxiv url: http://arxiv.org/abs/2204.11574v1
- Date: Mon, 25 Apr 2022 11:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:54:16.121843
- Title: A global analysis of metrics used for measuring performance in natural
language processing
- Title(参考訳): 自然言語処理における性能測定のためのメトリクスのグローバル分析
- Authors: Kathrin Blagec and Georg Dorffner and Milad Moradi and Simon Ott and
Matthias Samwald
- Abstract要約: 自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。
結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
- 参考スコア(独自算出の注目度): 9.433496814327086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the performance of natural language processing models is
challenging. Traditionally used metrics, such as BLEU and ROUGE, originally
devised for machine translation and summarization, have been shown to suffer
from low correlation with human judgment and a lack of transferability to other
tasks and languages. In the past 15 years, a wide range of alternative metrics
have been proposed. However, it is unclear to what extent this has had an
impact on NLP benchmarking efforts. Here we provide the first large-scale
cross-sectional analysis of metrics used for measuring performance in natural
language processing. We curated, mapped and systematized more than 3500 machine
learning model performance results from the open repository 'Papers with Code'
to enable a global and comprehensive analysis. Our results suggest that the
large majority of natural language processing metrics currently used have
properties that may result in an inadequate reflection of a models'
performance. Furthermore, we found that ambiguities and inconsistencies in the
reporting of metrics may lead to difficulties in interpreting and comparing
model performances, impairing transparency and reproducibility in NLP research.
- Abstract(参考訳): 自然言語処理モデルの性能測定は困難である。
伝統的に、機械翻訳や要約のために考案されたbleuやrougeといったメトリクスは、人間の判断との相関が低く、他のタスクや言語への転送性が欠如していることが示されている。
過去15年間、様々な代替指標が提案されてきた。
しかし、これがNLPベンチマークの取り組みにどの程度影響を与えたかは不明である。
ここでは,自然言語処理の性能測定に使用するメトリクスの大規模横断分析を初めて実施する。
オープンリポジトリ'papers with code'から3500以上の機械学習モデルのパフォーマンス結果をキュレートし、マッピングし、体系化し、グローバルかつ包括的な分析を可能にした。
この結果から,現在使用されている自然言語処理指標の大部分は,モデルの性能を不適切に反映する性質を持っていることが示唆された。
さらに,メトリクスの報告における曖昧さや矛盾は,モデル性能の解釈と比較に困難をもたらし,NLP研究における透明性や再現性を損なう可能性が示唆された。
関連論文リスト
- Generalization Measures for Zero-Shot Cross-Lingual Transfer [40.35113593153817]
その知識を一般化するモデルの能力は、堅牢で信頼性の高い機械学習システムを構築するために不可欠である。
言語モデル評価タスクには、モデル一般化に関する情報指標が欠けている。
本稿では,一般化に相関するモデル最適化のシャープネスを確実かつ安定に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T15:38:22Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - A critical analysis of metrics used for measuring progress in artificial
intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文 参考訳(メタデータ) (2020-08-06T11:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。