論文の概要: To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation
- arxiv url: http://arxiv.org/abs/2107.10821v1
- Date: Thu, 22 Jul 2021 17:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 12:55:55.510421
- Title: To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation
- Title(参考訳): 出荷または出荷しない:機械翻訳のための自動測定値の広範囲な評価
- Authors: Tom Kocmi and Christian Federmann and Roman Grundkiewicz and Marcin
Junczys-Dowmunt and Hitokazu Matsushita and Arul Menezes
- Abstract要約: システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
- 参考スコア(独自算出の注目度): 5.972205906525993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic metrics are commonly used as the exclusive tool for declaring the
superiority of one machine translation system's quality over another. The
community choice of automatic metric guides research directions and industrial
developments by deciding which models are deemed better. Evaluating metrics
correlations has been limited to a small collection of human judgements. In
this paper, we corroborate how reliable metrics are in contrast to human
judgements on - to the best of our knowledge - the largest collection of human
judgements. We investigate which metrics have the highest accuracy to make
system-level quality rankings for pairs of systems, taking human judgement as a
gold standard, which is the closest scenario to the real metric usage.
Furthermore, we evaluate the performance of various metrics across different
language pairs and domains. Lastly, we show that the sole use of BLEU
negatively affected the past development of improved models. We release the
collection of human judgements of 4380 systems, and 2.3 M annotated sentences
for further analysis and replication of our work.
- Abstract(参考訳): 自動メトリクスは、ある機械翻訳システムの品質が他の機械よりも優れていることを宣言するための専用ツールとして一般的に使用される。
自動メトリクスのコミュニティ選択は、どのモデルが良いと見なされるかを決めることによって、研究の方向性と産業の発展を導く。
メトリクス相関の評価は、人間の判断のごく一部に限られている。
本稿では,人間の判断の最大集合である人間の判断とは対照的に,指標がどの程度信頼できるのかを考察する。
実測値の使用状況に最も近い金の基準として人間の判断を採り入れ,システムレベルの品質ランキングを作成する上で,どの指標が最も正確かを検討する。
さらに,様々な言語対とドメインにおける各種メトリクスの性能評価を行った。
最後に,bleu の単独使用が過去の改良モデル開発に悪影響を与えていることを示す。
我々は、4380のシステムと2.3Mの注釈付き文による人間の判断の収集を公開し、さらなる分析と複製を行う。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。