論文の概要: The Glass Ceiling of Automatic Evaluation in Natural Language Generation
- arxiv url: http://arxiv.org/abs/2208.14585v1
- Date: Wed, 31 Aug 2022 01:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:22:16.292183
- Title: The Glass Ceiling of Automatic Evaluation in Natural Language Generation
- Title(参考訳): 自然言語生成におけるガラスシーリングと自動評価
- Authors: Pierre Colombo, Maxime Peyrard, Nathan Noiry, Robert West, Pablo
Piantanida
- Abstract要約: ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
- 参考スコア(独自算出の注目度): 60.59732704936083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation metrics capable of replacing human judgments are
critical to allowing fast development of new methods. Thus, numerous research
efforts have focused on crafting such metrics. In this work, we take a step
back and analyze recent progress by comparing the body of existing automatic
metrics and human metrics altogether. As metrics are used based on how they
rank systems, we compare metrics in the space of system rankings. Our extensive
statistical analysis reveals surprising findings: automatic metrics -- old and
new -- are much more similar to each other than to humans. Automatic metrics
are not complementary and rank systems similarly. Strikingly, human metrics
predict each other much better than the combination of all automatic metrics
used to predict a human metric. It is surprising because human metrics are
often designed to be independent, to capture different aspects of quality, e.g.
content fidelity or readability. We provide a discussion of these findings and
recommendations for future work in the field of evaluation.
- Abstract(参考訳): 人間の判断を置き換えられる自動評価指標は、新しい手法の迅速な開発を可能にするために重要である。
このように、多くの研究がこのようなメトリクスの作成に焦点を合わせてきた。
本研究では,既存の自動測定値と人的測定値のボディを比較して,最近の進歩を一歩引いて分析する。
システムランキングの方法に基づいてメトリクスを使用するため、システムランキングの空間におけるメトリクスを比較する。
当社の広範な統計分析によって驚くべき結果が明らかになった。 自動メトリクス(旧値と新値)は、人間よりも互いに非常に似ている。
自動メトリクスは相補的ではなく、ランクシステムも同様である。
驚くべきことに、ヒューマンメトリックは、ヒューマンメトリックを予測するのに使用されるすべての自動メトリックの組み合わせよりもはるかに優れた相互を予測する。
人間のメトリクスは、コンテンツの忠実さや可読性など、品質の異なる側面を捉えるために、しばしば独立して設計されるため、驚きである。
本稿では,これらの知見と今後の評価分野への提言について述べる。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Favi-Score: A Measure for Favoritism in Automated Preference Ratings for Generative AI Evaluation [10.776099974329647]
選好指標に好意の形式的定義を導入する。
最終システムランキングの誤差に好意が強く関係していることが示される。
そこで本稿では,手話の精度と好ましさの両面から,嗜好に基づく指標を評価することを提案する。
論文 参考訳(メタデータ) (2024-06-03T09:20:46Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。