論文の概要: Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies
- arxiv url: http://arxiv.org/abs/2401.06760v2
- Date: Mon, 10 Jun 2024 12:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:08:57.643884
- Title: Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies
- Title(参考訳): メトリクス迷路をナビゲートする - スコアマグニチュードとアキュラシーを再調整する
- Authors: Tom Kocmi, Vilém Zouhar, Christian Federmann, Matt Post,
- Abstract要約: 10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。
本稿では,現代のメトリクスの「ダイナミックレンジ」について考察する。
- 参考スコア(独自算出の注目度): 24.26653413077486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ten years ago a single metric, BLEU, governed progress in machine translation research. For better or worse, there is no such consensus today, and consequently it is difficult for researchers to develop and retain the kinds of heuristic intuitions about metric deltas that drove earlier research and deployment decisions. This paper investigates the "dynamic range" of a number of modern metrics in an effort to provide a collective understanding of the meaning of differences in scores both within and among metrics; in other words, we ask what point difference X in metric Y is required between two systems for humans to notice? We conduct our evaluation on a new large dataset, ToShip23, using it to discover deltas at which metrics achieve system-level differences that are meaningful to humans, which we measure by pairwise system accuracy. We additionally show that this method of establishing delta-accuracy is more stable than the standard use of statistical p-values in regards to testset size. Where data size permits, we also explore the effect of metric deltas and accuracy across finer-grained features such as translation direction, domain, and system closeness.
- Abstract(参考訳): 10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。
良くも悪くも、今日ではそのようなコンセンサスがないため、初期の研究と展開の決定を導いたメートル法デルタに関するヒューリスティックな直観を、研究者が開発し維持することは困難である。
本稿では,測定値の内外差の意味を包括的に理解するために,多数の現代指標の「ダイナミックレンジ」について検討する。つまり,測定値Yにおける点差Xが,人間の注意を喚起する2つのシステム間でどのような点差Xが必要とされるのかを問う。
我々は、新しい大規模データセットであるToShip23を用いて評価を行い、測定値が人間にとって意味のあるシステムレベルの差を達成できるデルタを発見する。
さらに、このデルタ精度の確立方法は、テストセットサイズに関する統計的なp値の標準使用よりも安定であることを示す。
データサイズが許される場所では、翻訳方向、ドメイン、システム近接性といったよりきめ細かい特徴に対して、メートル差と精度の影響についても検討する。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Suitability of Different Metric Choices for Concept Drift Detection [9.76294323004155]
ドリフト検出のための多くの教師なしのアプローチは、2つの時間窓のサンプル間の差を測定することに依存している。
ほとんどのドリフト検出法は、どの計量を使用するか、この計量がどのように推定されるか、どのように決定しきい値が見つかるかで区別できる。
我々は,異なる種類の推定器と測定器を理論的,実証的に比較し,単一の測定器の関連性について検討する。
論文 参考訳(メタデータ) (2022-02-19T01:11:32Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Learning to Evaluate Perception Models Using Planner-Centric Metrics [104.33349410009161]
本稿では,自動運転のタスクに特化して,3次元物体検出の原理的基準を提案する。
私たちのメトリクスは、他のメトリクスが設計によって課す多くの間違いを罰します。
人間の評価では,基準基準値と基準値が一致しないシーンを生成し,基準値の79%が人間の側にあることがわかった。
論文 参考訳(メタデータ) (2020-04-19T02:14:00Z) - Reliable Fidelity and Diversity Metrics for Generative Models [30.941563781926202]
Fr'echet Inception Distance (FID)スコアは、Fr'echet Inception Distance(FID)スコアである。
最新の精度とリコール基準でさえまだ信頼性が低いことを示す。
上記の問題を解決するための密度とカバレッジの指標を提案する。
論文 参考訳(メタデータ) (2020-02-23T00:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。