論文の概要: SynCED-EnDe 2025: A Synthetic and Curated English - German Dataset for Critical Error Detection in Machine Translation
- arxiv url: http://arxiv.org/abs/2510.05144v1
- Date: Wed, 01 Oct 2025 22:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.852049
- Title: SynCED-EnDe 2025: A Synthetic and Curated English - German Dataset for Critical Error Detection in Machine Translation
- Title(参考訳): SynCED-EnDe 2025: 機械翻訳における臨界エラー検出のための英語とドイツ語の合成データセット
- Authors: Muskaan Chopra, Lorenz Sparrenberg, Rafet Sifa,
- Abstract要約: 機械翻訳におけるクリティカルエラー検出は、翻訳が安全かどうかを判断することを目的とする。
我々は,1000個のゴールドラベルと8,000個の銀ラベルの文対からなる新しい資源であるSynCED-EnDeを提案する。
我々は、情報検索や会話アシスタントにおけるMTの安全な展開を促進するためのコミュニティリソースとして、SynCED-EnDeを構想する。
- 参考スコア(独自算出の注目度): 1.4517170578045737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical Error Detection (CED) in machine translation aims to determine whether a translation is safe to use or contains unacceptable deviations in meaning. While the WMT21 English-German CED dataset provided the first benchmark, it is limited in scale, label balance, domain coverage, and temporal freshness. We present SynCED-EnDe, a new resource consisting of 1,000 gold-labeled and 8,000 silver-labeled sentence pairs, balanced 50/50 between error and non-error cases. SynCED-EnDe draws from diverse 2024-2025 sources (StackExchange, GOV.UK) and introduces explicit error subclasses, structured trigger flags, and fine-grained auxiliary judgments (obviousness, severity, localization complexity, contextual dependency, adequacy deviation). These enrichments enable systematic analyses of error risk and intricacy beyond binary detection. The dataset is permanently hosted on GitHub and Hugging Face, accompanied by documentation, annotation guidelines, and baseline scripts. Benchmark experiments with XLM-R and related encoders show substantial performance gains over WMT21 due to balanced labels and refined annotations. We envision SynCED-EnDe as a community resource to advance safe deployment of MT in information retrieval and conversational assistants, particularly in emerging contexts such as wearable AI devices.
- Abstract(参考訳): 機械翻訳におけるクリティカルエラー検出(CED)は、翻訳が安全かどうかを判断することを目的とする。
WMT21英語-ドイツ語のCEDデータセットが最初のベンチマークを提供したが、スケール、ラベルバランス、ドメインカバレッジ、時間的更新性に制限がある。
我々は,1000個のゴールドラベルと8,000個の銀ラベルの文ペアからなる新たなリソースであるSynCED-EnDeを,エラー事例と非エラー事例の50/50のバランスで提示する。
SynCED-EnDeは、さまざまな2024-2025ソース(StackExchange, GOV.UK)から作成され、明示的なエラーサブクラス、構造化されたトリガーフラグ、きめ細かい補助判断(可視性、重大性、ローカライゼーションの複雑さ、コンテキスト依存、妥当性逸脱)を導入している。
これらの豊かさは、二分検出を超えたエラーリスクと複雑度を体系的に分析することを可能にする。
データセットはGitHubとHugging Faceに永久にホストされており、ドキュメント、アノテーションガイドライン、ベースラインスクリプトが付属している。
XLM-Rと関連するエンコーダによるベンチマーク実験では、バランスの取れたラベルと洗練されたアノテーションにより、WMT21よりも大幅に性能が向上した。
我々は、情報検索や会話アシスタント、特にウェアラブルAIデバイスのような新興状況において、MTの安全な展開を促進するためのコミュニティリソースとしてSynCED-EnDeを構想する。
関連論文リスト
- Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing
Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。
本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。
我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文 参考訳(メタデータ) (2021-09-29T07:51:17Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。