論文の概要: Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies
- arxiv url: http://arxiv.org/abs/2401.06760v2
- Date: Mon, 10 Jun 2024 12:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:08:57.643884
- Title: Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies
- Title(参考訳): メトリクス迷路をナビゲートする - スコアマグニチュードとアキュラシーを再調整する
- Authors: Tom Kocmi, Vilém Zouhar, Christian Federmann, Matt Post,
- Abstract要約: 10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。
本稿では,現代のメトリクスの「ダイナミックレンジ」について考察する。
- 参考スコア(独自算出の注目度): 24.26653413077486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ten years ago a single metric, BLEU, governed progress in machine translation research. For better or worse, there is no such consensus today, and consequently it is difficult for researchers to develop and retain the kinds of heuristic intuitions about metric deltas that drove earlier research and deployment decisions. This paper investigates the "dynamic range" of a number of modern metrics in an effort to provide a collective understanding of the meaning of differences in scores both within and among metrics; in other words, we ask what point difference X in metric Y is required between two systems for humans to notice? We conduct our evaluation on a new large dataset, ToShip23, using it to discover deltas at which metrics achieve system-level differences that are meaningful to humans, which we measure by pairwise system accuracy. We additionally show that this method of establishing delta-accuracy is more stable than the standard use of statistical p-values in regards to testset size. Where data size permits, we also explore the effect of metric deltas and accuracy across finer-grained features such as translation direction, domain, and system closeness.
- Abstract(参考訳): 10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。
良くも悪くも、今日ではそのようなコンセンサスがないため、初期の研究と展開の決定を導いたメートル法デルタに関するヒューリスティックな直観を、研究者が開発し維持することは困難である。
本稿では,測定値の内外差の意味を包括的に理解するために,多数の現代指標の「ダイナミックレンジ」について検討する。つまり,測定値Yにおける点差Xが,人間の注意を喚起する2つのシステム間でどのような点差Xが必要とされるのかを問う。
我々は、新しい大規模データセットであるToShip23を用いて評価を行い、測定値が人間にとって意味のあるシステムレベルの差を達成できるデルタを発見する。
さらに、このデルタ精度の確立方法は、テストセットサイズに関する統計的なp値の標準使用よりも安定であることを示す。
データサイズが許される場所では、翻訳方向、ドメイン、システム近接性といったよりきめ細かい特徴に対して、メートル差と精度の影響についても検討する。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Suitability of Different Metric Choices for Concept Drift Detection [9.76294323004155]
ドリフト検出のための多くの教師なしのアプローチは、2つの時間窓のサンプル間の差を測定することに依存している。
ほとんどのドリフト検出法は、どの計量を使用するか、この計量がどのように推定されるか、どのように決定しきい値が見つかるかで区別できる。
我々は,異なる種類の推定器と測定器を理論的,実証的に比較し,単一の測定器の関連性について検討する。
論文 参考訳(メタデータ) (2022-02-19T01:11:32Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Learning to Evaluate Perception Models Using Planner-Centric Metrics [104.33349410009161]
本稿では,自動運転のタスクに特化して,3次元物体検出の原理的基準を提案する。
私たちのメトリクスは、他のメトリクスが設計によって課す多くの間違いを罰します。
人間の評価では,基準基準値と基準値が一致しないシーンを生成し,基準値の79%が人間の側にあることがわかった。
論文 参考訳(メタデータ) (2020-04-19T02:14:00Z) - Reliable Fidelity and Diversity Metrics for Generative Models [30.941563781926202]
Fr'echet Inception Distance (FID)スコアは、Fr'echet Inception Distance(FID)スコアである。
最新の精度とリコール基準でさえまだ信頼性が低いことを示す。
上記の問題を解決するための密度とカバレッジの指標を提案する。
論文 参考訳(メタデータ) (2020-02-23T00:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。