論文の概要: Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress
- arxiv url: http://arxiv.org/abs/2506.19571v1
- Date: Tue, 24 Jun 2025 12:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.622903
- Title: Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress
- Title(参考訳): 機械翻訳評価は人間の親性を達成するか? : 人間の参考と進歩の限界
- Authors: Lorenzo Proietti, Stefano Perrella, Roberto Navigli,
- Abstract要約: 機械翻訳(MT)評価では、人的判断との一致に基づいて計量性能を評価する。
我々はMTメタ評価,すなわちMTメトリクスの能力の評価に,人間のベースラインを取り入れた。
以上の結果から,ヒトのアノテータは自動測定値よりも一貫して優れていないことが示唆された。
- 参考スコア(独自算出の注目度): 43.09028349076039
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Machine Translation (MT) evaluation, metric performance is assessed based on agreement with human judgments. In recent years, automatic metrics have demonstrated increasingly high levels of agreement with humans. To gain a clearer understanding of metric performance and establish an upper bound, we incorporate human baselines in the MT meta-evaluation, that is, the assessment of MT metrics' capabilities. Our results show that human annotators are not consistently superior to automatic metrics, with state-of-the-art metrics often ranking on par with or higher than human baselines. Despite these findings suggesting human parity, we discuss several reasons for caution. Finally, we explore the broader implications of our results for the research field, asking: Can we still reliably measure improvements in MT evaluation? With this work, we aim to shed light on the limits of our ability to measure progress in the field, fostering discussion on an issue that we believe is crucial to the entire MT evaluation community.
- Abstract(参考訳): 機械翻訳(MT)評価では、人的判断との一致に基づいて計量性能を評価する。
近年、自動メトリクスは人間との合意のレベルをますます高めている。
計量性能のより明確な理解と上限を確立するため,MTメタ評価,すなわちMTメトリクスの能力評価に人体ベースラインを取り入れた。
以上の結果から,ヒトのアノテータは自動測定値よりも一貫して優れていないことが示唆された。
これらの発見がヒトの同義性を示唆しているにもかかわらず、注意すべきいくつかの理由について論じる。
最後に、研究分野における結果のより広範な影響について考察し、引き続きMT評価の改善を確実に評価できるかどうかを問う。
本研究は,MT評価コミュニティ全体にとって重要な課題として,この分野における進捗測定能力の限界を浮き彫りにすることを目的としている。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Trained MT Metrics Learn to Cope with Machine-translated References [47.00411750716812]
機械翻訳参照に対してPrism+FTがより堅牢になることを示す。
これは、計量トレーニングの効果が、人間の判断との全体的な相関を改善する意図的な効果を超えることを示唆している。
論文 参考訳(メタデータ) (2023-12-01T12:15:58Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。