Fugu-MT 論文翻訳(概要): Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite

論文の概要: Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite

arxiv url: http://arxiv.org/abs/2604.01957v1
Date: Thu, 02 Apr 2026 12:20:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.774863
Title: Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite
Title（参考訳）: 翻訳ベンチマークの診断: EU20ベンチマークスイートの品質保証自動調査
Authors: Klaudia Thellmann, Bernhard Stadler, Michael Färber,
Abstract要約: 機械翻訳されたベンチマークデータセットはコストを削減しスケールを提供するが、ノイズ、構造喪失、不均一な品質は信頼性を弱める。我々は、20言語に翻訳された5つの確立されたベンチマークからなるEU20ベンチマークスイートの翻訳品質について研究する。
参考スコア（独自算出の注目度）: 4.610993339882929
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Machine-translated benchmark datasets reduce costs and offer scale, but noise, loss of structure, and uneven quality weaken confidence. What matters is not merely whether we can translate, but also whether we can measure and verify translation reliability at scale. We study translation quality in the EU20 benchmark suite, which comprises five established benchmarks translated into 20 languages, via a three-step automated quality assurance approach: (i) a structural corpus audit with targeted fixes; (ii) quality profiling using a neural metric (COMET, reference-free and reference-based) with translation service comparisons (DeepL / ChatGPT / Google); and (iii) an LLM-based span-level translation error landscape. Trends are consistent: datasets with lower COMET scores exhibit a higher share of accuracy/mistranslation errors at span level (notably HellaSwag; ARC is comparatively clean). Reference-based COMET on MMLU against human-edited samples points in the same direction. We release cleaned/corrected versions of the EU20 datasets, and code for reproducibility. In sum, automated quality assurance offers practical, scalable indicators that help prioritize review -- complementing, not replacing, human gold standards.
Abstract（参考訳）: 機械翻訳されたベンチマークデータセットはコストを削減しスケールを提供するが、ノイズ、構造喪失、不均一な品質は信頼性を弱める。重要なのは、翻訳できるかどうかだけでなく、翻訳の信頼性を大規模に測定し検証できるかどうかです。我々は、20言語に翻訳された5つの確立されたベンチマークからなるEU20ベンチマークスイートの翻訳品質について、3段階の自動品質保証アプローチを用いて研究する。 i) 目標とする修正を施した構造的コーパス監査 (II) 翻訳サービスの比較(DeepL / ChatGPT / Google)とニューラルネットワークを用いた品質プロファイリング(COMET, 参照フリー, 参照ベース) (iii)LLMに基づくスパンレベルの翻訳エラーランドスケープ。 COMETスコアが低いデータセットは、スパンレベル(特にHellaSwag;ARCは比較的クリーン)で精度/誤訳エラーの比率が高い。 MMLU上の参照型COMETと人為的なサンプルは、同じ方向を向いている。 EU20データセットのクリーン/修正バージョンと再現性のためのコードをリリースしています。まとめると、自動化された品質保証は、人間のゴールド標準を補完し、置き換えるのではなく、レビューの優先順位付けに役立つ実践的でスケーラブルな指標を提供します。

関連論文リスト

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets [2.0199251985015434]
データセットとベンチマークのスケーラブルで高品質な翻訳を可能にするために,完全に自動化されたフレームワークを提案する。このアプローチを適用して、人気のあるベンチマークとデータセットを8つの東欧と南欧の言語に翻訳します。
論文参考訳（メタデータ） (2026-02-25T18:58:25Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。 DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-02-27T10:11:53Z)
Can Automatic Metrics Assess High-Quality Translations? [28.407966066693334]
現在のメトリクスは、翻訳品質の微妙な違いに敏感であることを示す。この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。 MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。
論文参考訳（メタデータ） (2024-05-28T16:44:02Z)
Evaluating Optimal Reference Translations [4.956416618428049]
本稿では,より信頼性の高い文書レベルの人文参照翻訳手法を提案する。得られた文書レベルの最適参照翻訳を「標準」翻訳と比較して評価した。
論文参考訳（メタデータ） (2023-11-28T13:50:50Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文参考訳（メタデータ） (2021-11-15T12:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。