Fugu-MT 論文翻訳(概要): Automatic Metrics in Natural Language Generation: A Survey of Current Evaluation Practices

論文の概要: Automatic Metrics in Natural Language Generation: A Survey of Current Evaluation Practices

arxiv url: http://arxiv.org/abs/2408.09169v1
Date: Sat, 17 Aug 2024 11:13:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 22:01:27.374533
Title: Automatic Metrics in Natural Language Generation: A Survey of Current Evaluation Practices
Title（参考訳）: 自然言語生成における自動メトリクス:最近の評価実践に関する調査
Authors: Patrícia Schmidtová, Saad Mahamood, Simone Balloccu, Ondřej Dušek, Albert Gatt, Dimitra Gkatzia, David M. Howcroft, Ondřej Plátek, Adarsa Sivaprasad,
Abstract要約: 我々は,特に自然言語生成タスクに焦点をあてて,自動メトリクスの使用に関する調査を行った。その結果,不適切な測定値の使用や実装の詳細の欠如など,重大な欠点が明らかになった。我々は、著者がフィールド内でより多くの厳格さを実現するために従うべきだと信じている推奨で締めくくります。
参考スコア（独自算出の注目度）: 4.76688822805109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic metrics are extensively used to evaluate natural language processing systems. However, there has been increasing focus on how they are used and reported by practitioners within the field. In this paper, we have conducted a survey on the use of automatic metrics, focusing particularly on natural language generation (NLG) tasks. We inspect which metrics are used as well as why they are chosen and how their use is reported. Our findings from this survey reveal significant shortcomings, including inappropriate metric usage, lack of implementation details and missing correlations with human judgements. We conclude with recommendations that we believe authors should follow to enable more rigour within the field.
Abstract（参考訳）: 自動メトリクスは自然言語処理システムを評価するために広く使われている。しかし、この分野の実践者によってどのように使用されるか、報告されているかに焦点が当てられている。本稿では,特に自然言語生成(NLG)タスクに着目し,自動メトリクスの使用に関する調査を行った。どのようなメトリクスが使用されるのか、なぜ選択されるのか、どのように使用されるのかを調査する。本調査から,不適切な測定値の使用,実装詳細の欠如,人的判断との相関の欠如など,重大な問題点が明らかになった。我々は、著者がフィールド内でより多くの厳格さを実現するために従うべきだと信じている推奨で締めくくります。

関連論文リスト

Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文参考訳（メタデータ） (2023-04-27T16:38:17Z)
The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文参考訳（メタデータ） (2022-08-31T01:13:46Z)
A global analysis of metrics used for measuring performance in natural language processing [9.433496814327086]
自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
論文参考訳（メタデータ） (2022-04-25T11:41:50Z)
On the Intrinsic and Extrinsic Fairness Evaluation Metrics for Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文参考訳（メタデータ） (2022-03-25T22:17:43Z)
InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文参考訳（メタデータ） (2021-12-02T20:09:29Z)
OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。 OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文参考訳（メタデータ） (2021-05-19T04:45:07Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。