論文の概要: Feeding Two Birds or Favoring One? Adequacy-Fluency Tradeoffs in Evaluation and Meta-Evaluation of Machine Translation
- arxiv url: http://arxiv.org/abs/2509.20287v1
- Date: Wed, 24 Sep 2025 16:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.902118
- Title: Feeding Two Birds or Favoring One? Adequacy-Fluency Tradeoffs in Evaluation and Meta-Evaluation of Machine Translation
- Title(参考訳): 2羽の鳥を飼うか1羽を好むか : 機械翻訳の評価とメタ評価における等価度トレードオフ
- Authors: Behzad Shayegh, Jan-Thorsten Peter, David Vilar, Tobias Domhan, Juraj Juraska, Markus Freitag, Lili Mou,
- Abstract要約: 評価レベルでは、このトレードオフの深刻さを示し、人気のあるメトリクスがどこにあるかを分析します。
We found that the standard WMT meta-evaluation favors adequacy-oriented metrics than fluency-oriented。
このバイアスを制御するために,メタ評価において翻訳システムを合成する手法を提案する。
- 参考スコア(独自算出の注目度): 31.46538611882438
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We investigate the tradeoff between adequacy and fluency in machine translation. We show the severity of this tradeoff at the evaluation level and analyze where popular metrics fall within it. Essentially, current metrics generally lean toward adequacy, meaning that their scores correlate more strongly with the adequacy of translations than with fluency. More importantly, we find that this tradeoff also persists at the meta-evaluation level, and that the standard WMT meta-evaluation favors adequacy-oriented metrics over fluency-oriented ones. We show that this bias is partially attributed to the composition of the systems included in the meta-evaluation datasets. To control this bias, we propose a method that synthesizes translation systems in meta-evaluation. Our findings highlight the importance of understanding this tradeoff in meta-evaluation and its impact on metric rankings.
- Abstract(参考訳): 機械翻訳における妥当性と流布のトレードオフについて検討する。
評価レベルでは、このトレードオフの深刻さを示し、人気のあるメトリクスがどこにあるかを分析します。
基本的に、現在の測定基準は一般に非妥当性に傾いているため、そのスコアは流布よりも翻訳の妥当性と強く相関している。
さらに重要なことは、このトレードオフはメタ評価レベルでも持続しており、標準的なWMTメタ評価は、流派指向のメトリクスよりも、妥当性指向のメトリクスを好むということです。
このバイアスは、メタ評価データセットに含まれるシステムの構成に部分的に起因していることを示す。
このバイアスを制御するために,メタ評価において翻訳システムを合成する手法を提案する。
本研究は,メタ評価におけるこのトレードオフの理解の重要性と,評価基準に対する影響を明らかにするものである。
関連論文リスト
- TransEvalnia: Reasoning-based Evaluation and Ranking of Translations [10.036450974576745]
提案するTransEvalniaは,その評価とランク付けを行う上で,推論を用いたプロンプトベースの翻訳評価とランキングシステムである。
TransEvalniaは、我々の英語と日本語のデータに基づいて、最先端のMT-Rankerよりも優れていることを示す。
また, MT-Rankerと同様に, 翻訳の順序に対するシステムの感度についても言及し, この位置バイアスに対処する手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T02:02:54Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.261323452286554]
本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。
翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文 参考訳(メタデータ) (2025-03-25T16:42:25Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - Ties Matter: Meta-Evaluating Modern Metrics with Pairwise Accuracy and
Tie Calibration [31.082944145354293]
Kendall の tau は機械翻訳(MT)評価のメタ評価によく使われ、個々の翻訳を評価する。
既存の変種は、関係の扱いから生じる弱点があり、いくつかの状況ではゲーム化も可能であることを示す。
そこで本稿では,関係を正確に予測するためのメトリクスクレジットを提供するペアワイズ精度バージョンと,相関を自動で評価する階層校正手順を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:54:57Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。