論文の概要: XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics
- arxiv url: http://arxiv.org/abs/2604.14934v2
- Date: Sun, 19 Apr 2026 06:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.187144
- Title: XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics
- Title(参考訳): XQ-MEval: ベンチマーク翻訳メトリクスのための言語間並列品質データセット
- Authors: Jingxuan Liu, Zhi Qu, Jin Tei, Hidetaka Kamigaito, Lemao Liu, Taro Watanabe,
- Abstract要約: 9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。
MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
- 参考スコア(独自算出の注目度): 64.77152900881724
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic evaluation metrics are essential for building multilingual translation systems. The common practice of evaluating these systems is averaging metric scores across languages, yet this is suspicious since metrics may suffer from cross-lingual scoring bias, where translations of equal quality receive different scores across languages. This problem has not been systematically studied because no benchmark exists that provides parallel-quality instances across languages, and expert annotation is not realistic. In this work, we propose XQ-MEval, a semi-automatically built dataset covering nine translation directions, to benchmark translation metrics. Specifically, we inject MQM-defined errors into gold translations automatically, filter them by native speakers for reliability, and merge errors to generate pseudo translations with controllable quality. These pseudo translations are then paired with corresponding sources and references to form triplets used in assessing the qualities of translation metrics. Using XQ-MEval, our experiments on nine representative metrics reveal the inconsistency between averaging and human judgment and provide the first empirical evidence of cross-lingual scoring bias. Finally, we propose a normalization strategy derived from XQ-MEval that aligns score distributions across languages, improving the fairness and reliability of multilingual metric evaluation.
- Abstract(参考訳): 自動評価指標は多言語翻訳システムの構築に不可欠である。
これらのシステムを評価する一般的な実践は、言語間でのメトリクススコアの平均化であるが、これは、同じ品質の翻訳が言語間で異なるスコアを受け取るという、言語間スコアのバイアスに悩まされる可能性があるため、疑わしい。
言語間で並列品質のインスタンスを提供するベンチマークは存在せず、専門家のアノテーションは現実的ではないため、この問題は体系的に研究されていない。
本研究では,9つの翻訳方向をカバーする半自動構築されたデータセットであるXQ-MEvalを提案する。
具体的には、MQMで定義した誤りを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーでフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
これらの擬似翻訳は、対応するソースや参照と組み合わせて、翻訳指標の質を評価するために使用される三つ子を形成する。
XQ-MEvalを用いて、平均的判断と人的判断の矛盾を明らかにし、言語間のスコアリングバイアスの最初の実証的証拠を提供する。
最後に,XQ-MEvalをベースとした正規化手法を提案する。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。
この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。
MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文 参考訳(メタデータ) (2024-05-28T16:44:02Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。