Fugu-MT 論文翻訳(概要): Quantifying the Impact of Translation Errors on Multilingual LLM Evaluation

論文の概要: Quantifying the Impact of Translation Errors on Multilingual LLM Evaluation

arxiv url: http://arxiv.org/abs/2605.24904v1
Date: Sun, 24 May 2026 07:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.500931
Title: Quantifying the Impact of Translation Errors on Multilingual LLM Evaluation
Title（参考訳）: 多言語LLM評価における翻訳誤りの影響の定量化
Authors: Klaudia-Doris Thellmann, Bernhard Stadler, Michael Färber, Jens Lehmann,
Abstract要約: 機械翻訳ベンチマークは、大規模言語モデル(LLM)の多言語能力を評価するために広く用いられている。 MQM形式の自動エラーがLLMの判断と,QEのベースラインからどの程度の精度で発生するか,という2つの現実的なギャップに対処する。自然発生型ベンチマーク翻訳ではスパンの一致は自明であり, ターゲット側の翻訳誤差は, 翻訳精度において測定可能なパーセンテージ・ポイント・ドロップと一貫して関連していることがわかった。
参考スコア（独自算出の注目度）: 8.48956061615262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine-translated benchmarks are widely used to assess the multilingual capabilities of large language models (LLMs), yet translation errors in these benchmarks remain underexplored, raising concerns about the reliability and comparability of multilingual evaluation. We address two practical gaps: (i) how well automatic MQM-style error spans from LLM judges and a span-aware QE baseline (xCOMET-XXL) match expert human span annotations on benchmark translations, and (ii) how strongly translation errors (as opposed to source-side issues in the English original) explain accuracy drops on translated benchmarks. We find that span agreement is non-trivial on naturally occurring benchmark translations, and that target-side translation errors are consistently associated with measurable, percentage-point drops in translated accuracy even after controlling for English correctness and source-side anomalies.
Abstract（参考訳）: 機械翻訳ベンチマークは、大規模言語モデル(LLM)の多言語能力を評価するために広く用いられているが、これらのベンチマークの翻訳エラーは未検討のままであり、多言語評価の信頼性と互換性に関する懸念が高まっている。私たちは2つの現実的なギャップに対処します。 i) MQM 形式の自動エラーが LLM の審査員と、xCOMET-XXL のQEベースラインと、ベンチマーク翻訳に関する専門家のスパンアノテーションとでどの程度うまく一致しているか。 (II) 翻訳されたベンチマークの精度低下について、(原文のソース側問題とは対照的に)翻訳エラーがいかに強く説明されるか。自然発生型ベンチマーク翻訳ではスパンの一致は自明ではないことが分かり、英語の正確さとソース側の異常を制御した後でも、ターゲット側の翻訳誤差は、翻訳精度の計測可能なパーセンテージ・ポイント・ドロップと一貫して関連していることがわかった。

関連論文リスト

XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics [64.77152900881724]
9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。 MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。 XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
論文参考訳（メタデータ） (2026-04-16T12:27:10Z)
Quality-Aware Translation Tagging in Multilingual RAG system [0.3876459156082311]
我々はmRAG(QTT-RAG)における品質認識翻訳タグを提案する。 QTT-RAGは3次元のセマンティック同値、文法的精度、自然さと頻度で翻訳品質を明示的に評価する。このアプローチにより、ネイティブ言語文書に制限のある低リソース設定で、クロスランガル文書を効果的に使用することができる。
論文参考訳（メタデータ） (2025-10-27T07:11:01Z)
LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。 LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。提案したIBUTは、いくつかの強力な比較法より優れている。
論文参考訳（メタデータ） (2024-10-16T13:21:46Z)
MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文参考訳（メタデータ） (2024-09-22T06:43:40Z)
Translation Errors Significantly Impact Low-Resource Languages in Cross-Lingual Learning [26.49647954587193]
本研究では,翻訳の不整合が存在し,XNLIの低リソース言語に不均等に影響を及ぼすことを示す。このような矛盾を識別するために,人間翻訳テキストと機械翻訳ターゲットテキストにおけるゼロショット評価の差を計測する手法を提案する。また,Hindi と Urdu という2つの言語に対して,人間が翻訳したテストインスタンスを手動で再注釈することで,翻訳エラーが存在することも確認した。
論文参考訳（メタデータ） (2024-02-03T08:22:51Z)
xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文参考訳（メタデータ） (2023-10-16T15:03:14Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。