論文の概要: Who Watches the Watchmen? Humans Disagree With Translation Metrics on Unseen Domains
- arxiv url: http://arxiv.org/abs/2604.17393v2
- Date: Tue, 21 Apr 2026 16:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.920681
- Title: Who Watches the Watchmen? Humans Disagree With Translation Metrics on Unseen Domains
- Title(参考訳): ウォッチマンを誰が見るのか? 人間は見知らぬドメインの翻訳基準に悩まされる
- Authors: Finn Schmidt, Jan Philip Wahle, Terry Ruas, Bela Gipp,
- Abstract要約: 系統的マルチアノテータであるクロスドメインエラースパンデータセット(CD-ESA)を導入する。
1つのニュースドメインと2つの技術的ドメインにまたがる同じ6つの翻訳システムの翻訳を評価した。
このデータセットを使うことで、セグメントレベルでのドメインシフトに対して、自動メトリクスが驚くほど堅牢であることがわかる。
- 参考スコア(独自算出の注目度): 11.267285650500737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic evaluation metrics are central to the development of machine translation systems, yet their robustness under domain shift remains unclear. Most metrics are developed on the Workshop on Machine Translation (WMT) benchmarks, raising concerns about their robustness to unseen domains. Prior studies that analyze unseen domains vary translation systems, annotators, or evaluation conditions, confounding domain effects with human annotation noise. To address these biases, we introduce a systematic multi-annotator Cross-Domain Error-Span-Annotation dataset (CD-ESA), comprising 18.8k human error span annotations across three language pairs, where we fix annotators within each language pair and evaluate translations of the same six translation systems across one seen news domain and two unseen technical domains. Using this dataset, we first find that automatic metrics appear surprisingly robust to domain-shifts at the segment level (up to 0.69 agreement), but this robustness largely disappears once we account for human label variation. Averaging annotations increases inter-annotator agreement by up to +0.11. Metrics struggle on the unseen chemical domain compared to humans (inter-annotator agreement of 0.78-0.83 vs. 0.96). We recommend comparing metric-human agreement against inter-annotator agreement, rather than comparing raw metric-human agreement alone, when evaluating across different domains.
- Abstract(参考訳): 自動評価メトリクスは機械翻訳システムの開発の中心であるが、ドメインシフト下での堅牢性はまだ不明である。
ほとんどのメトリクスは、マシン翻訳(WMT)ベンチマークで開発されており、目に見えないドメインに対する堅牢性に対する懸念を提起している。
未確認領域を分析する以前の研究では、翻訳システム、アノテーション、評価条件が異なり、ドメイン効果と人間のアノテーションノイズが混在している。
これらのバイアスに対処するために、我々は3つの言語対にまたがる18.8kのヒューマンエラーを含む、系統的なマルチアノテーションであるクロスドメインエラー・スパンアノテーションデータセット(CD-ESA)を導入し、各言語対内のアノテーションを修正し、同じ6つの翻訳システムの翻訳を1つのニュースドメインと2つの未確認技術ドメインで評価する。
このデータセットを使用することで、セグメントレベルでのドメインシフトに対して、自動メトリクスが驚くほど堅牢である(最大0.69の合意)ことが分かりました。
アノテーションの平均化はアノテーション間の合意を+0.11まで増加させる。
計量は、人間に比べて目に見えない化学領域に苦しむ(アノテーション間の合意は 0.78-0.83 対 0.96 対 0.78-0.83)。
我々は、異なるドメイン間での評価において、生のメトリック・ヒューマン・アグリーメントを単独で比較するのではなく、アノテータ間アグリーメントに対するメトリック・ヒューマン・アグリーメントを比較することを推奨する。
関連論文リスト
- XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics [64.77152900881724]
9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。
MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
論文 参考訳(メタデータ) (2026-04-16T12:27:10Z) - Revisiting Metric Reliability for Fine-grained Evaluation of Machine Translation and Summarization in Indian Languages [13.098470937627871]
ITEMは、6つの主要なインドの言語における26の自動測定値と人間の判断値のアライメントを体系的に評価する。
発見は、インドの言語でメートル法設計と評価を進めるための重要なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:27:02Z) - COMET-poly: Machine Translation Metric Grounded in Other Candidates [63.82506348745169]
単一翻訳以外の追加情報を含む2つの自動メトリクスを提案する。
COMET-polycandは、同じソース文の代替翻訳を使用して、手元の翻訳と比較し、対比する。
COMET-polycandに1つの追加翻訳を含めると、セグメントレベルのメートル法性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-08-25T22:55:22Z) - Assessing the Sensitivity and Alignment of FOL Closeness Metrics [10.795521518273214]
既存のNL-, FOL-, グラフベースメトリクスの感度について検討し, サンプルFOLとそれに対応する接地構造との差を捉えた。
メトリクスを組み合わせることで、個々のメトリクスに比べて堅牢性と感度が向上することを示す。
論文 参考訳(メタデータ) (2025-01-15T06:22:35Z) - Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains [10.743362634494842]
このデータセットを用いて、人為的なMT品質判断に基づいて微調整された機械翻訳(MT)メトリクスが、トレーニングと推論の間のドメインシフトに対して堅牢であるかどうかを調べる。
微調整されたメトリクスは、表面形状に依存するメトリクスと、MT品質判断に基づいて微調整されていない事前訓練されたメトリクスとに対して、目に見えない領域シナリオにおいて、かなりのパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-02-28T23:01:24Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。