論文の概要: Scientific Credibility of Machine Translation Research: A
Meta-Evaluation of 769 Papers
- arxiv url: http://arxiv.org/abs/2106.15195v1
- Date: Tue, 29 Jun 2021 09:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 03:16:21.585169
- Title: Scientific Credibility of Machine Translation Research: A
Meta-Evaluation of 769 Papers
- Title(参考訳): 機械翻訳研究の科学的信頼性:769紙のメタ評価
- Authors: Benjamin Marie, Atsushi Fujita, Raphael Rubino
- Abstract要約: 本稿では,機械翻訳(MT)の大規模メタ評価について述べる。
われわれは2010年から2020年にかけて769件の研究論文でMT評価を行った。
- 参考スコア(独自算出の注目度): 21.802259336894068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the first large-scale meta-evaluation of machine
translation (MT). We annotated MT evaluations conducted in 769 research papers
published from 2010 to 2020. Our study shows that practices for automatic MT
evaluation have dramatically changed during the past decade and follow
concerning trends. An increasing number of MT evaluations exclusively rely on
differences between BLEU scores to draw conclusions, without performing any
kind of statistical significance testing nor human evaluation, while at least
108 metrics claiming to be better than BLEU have been proposed. MT evaluations
in recent papers tend to copy and compare automatic metric scores from previous
work to claim the superiority of a method or an algorithm without confirming
neither exactly the same training, validating, and testing data have been used
nor the metric scores are comparable. Furthermore, tools for reporting
standardized metric scores are still far from being widely adopted by the MT
community. After showing how the accumulation of these pitfalls leads to
dubious evaluation, we propose a guideline to encourage better automatic MT
evaluation along with a simple meta-evaluation scoring method to assess its
credibility.
- Abstract(参考訳): 本稿では,機械翻訳(MT)の大規模メタ評価について述べる。
われわれは2010年から2020年にかけて769件の研究論文でMT評価を行った。
本研究は,過去10年間にMT自動評価の実践が劇的に変化し,傾向が続いていることを示す。
MT評価の増大は、統計学的に有意なテストや人的評価を行うことなく、BLEUスコアの違いにのみ依存し、BLEUよりも優れていると主張する少なくとも108の指標が提案されている。
最近の論文におけるmt評価は、同じトレーニング、検証、テストデータが使われていないか、メートル法スコアが同等であるかを確認せずに、メソッドやアルゴリズムの優位性を主張するために、以前の研究から得られた自動測定スコアをコピーして比較する傾向があります。
さらに、標準化されたメートル法スコアを報告するためのツールが、mtコミュニティによって広く採用されるには程遠い。
これらの落とし穴の蓄積が疑わしい評価にどのようにつながるかを示した結果,mt評価の精度を高めるためのガイドラインと,その信頼性を評価するための簡易なメタ評価スコア法を提案する。
関連論文リスト
- MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - Trained MT Metrics Learn to Cope with Machine-translated References [47.00411750716812]
機械翻訳参照に対してPrism+FTがより堅牢になることを示す。
これは、計量トレーニングの効果が、人間の判断との全体的な相関を改善する意図的な効果を超えることを示唆している。
論文 参考訳(メタデータ) (2023-12-01T12:15:58Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。
実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文 参考訳(メタデータ) (2022-04-13T17:49:25Z) - An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。
MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。
本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文 参考訳(メタデータ) (2022-02-22T16:58:28Z) - Uncertainty-Aware Machine Translation Evaluation [0.716879432974126]
我々は,不確実性を考慮したMT評価を導入し,予測品質の信頼性を分析した。
QT21データセットとWMT20メトリクスタスクから,複数の言語ペア間での不確実性を考慮したMT評価手法の性能を比較した。
論文 参考訳(メタデータ) (2021-09-13T22:46:03Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。