Fugu-MT 論文翻訳(概要): Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

論文の概要: Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

arxiv url: http://arxiv.org/abs/2106.15195v1
Date: Tue, 29 Jun 2021 09:30:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-01 03:16:21.585169
Title: Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers
Title（参考訳）: 機械翻訳研究の科学的信頼性:769紙のメタ評価
Authors: Benjamin Marie, Atsushi Fujita, Raphael Rubino
Abstract要約: 本稿では,機械翻訳(MT)の大規模メタ評価について述べる。われわれは2010年から2020年にかけて769件の研究論文でMT評価を行った。
参考スコア（独自算出の注目度）: 21.802259336894068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the first large-scale meta-evaluation of machine translation (MT). We annotated MT evaluations conducted in 769 research papers published from 2010 to 2020. Our study shows that practices for automatic MT evaluation have dramatically changed during the past decade and follow concerning trends. An increasing number of MT evaluations exclusively rely on differences between BLEU scores to draw conclusions, without performing any kind of statistical significance testing nor human evaluation, while at least 108 metrics claiming to be better than BLEU have been proposed. MT evaluations in recent papers tend to copy and compare automatic metric scores from previous work to claim the superiority of a method or an algorithm without confirming neither exactly the same training, validating, and testing data have been used nor the metric scores are comparable. Furthermore, tools for reporting standardized metric scores are still far from being widely adopted by the MT community. After showing how the accumulation of these pitfalls leads to dubious evaluation, we propose a guideline to encourage better automatic MT evaluation along with a simple meta-evaluation scoring method to assess its credibility.
Abstract（参考訳）: 本稿では,機械翻訳(MT)の大規模メタ評価について述べる。われわれは2010年から2020年にかけて769件の研究論文でMT評価を行った。本研究は,過去10年間にMT自動評価の実践が劇的に変化し,傾向が続いていることを示す。 MT評価の増大は、統計学的に有意なテストや人的評価を行うことなく、BLEUスコアの違いにのみ依存し、BLEUよりも優れていると主張する少なくとも108の指標が提案されている。最近の論文におけるmt評価は、同じトレーニング、検証、テストデータが使われていないか、メートル法スコアが同等であるかを確認せずに、メソッドやアルゴリズムの優位性を主張するために、以前の研究から得られた自動測定スコアをコピーして比較する傾向があります。さらに、標準化されたメートル法スコアを報告するためのツールが、mtコミュニティによって広く採用されるには程遠い。これらの落とし穴の蓄積が疑わしい評価にどのようにつながるかを示した結果,mt評価の精度を高めるためのガイドラインと,その信頼性を評価するための簡易なメタ評価スコア法を提案する。

関連論文リスト

LLMs Are Not Scorers: Rethinking MT Evaluation with Generation-Based Methods [0.0]
本稿では,デコーダのみの言語モデルを利用して高品質な参照を生成する世代ベース評価パラダイムを提案する。実験の結果,本手法はMTMEのLLM内直接スコアリング基準値と外部非LLM基準値の両方より優れていた。
論文参考訳（メタデータ） (2025-05-22T02:14:38Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文参考訳（メタデータ） (2024-08-25T13:29:34Z)
Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文参考訳（メタデータ） (2024-07-03T17:04:17Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
MT-Ranker: Reference-free machine translation evaluation by inter-system ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。 MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文参考訳（メタデータ） (2024-01-30T15:30:03Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。 MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文参考訳（メタデータ） (2022-02-22T16:58:28Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文参考訳（メタデータ） (2020-06-11T09:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。