論文の概要: Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark
- arxiv url: http://arxiv.org/abs/2508.20511v1
- Date: Thu, 28 Aug 2025 07:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.162823
- Title: Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark
- Title(参考訳): 言語は依然として残っている - より優れた多言語機械翻訳ベンチマークを目指して
- Authors: Chihiro Taguchi, Seng Mai, Keita Kurabe, Yusuke Sakai, Georgina Agyei, Soudabeh Eslami, David Chiang,
- Abstract要約: 我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
- 参考スコア(独自算出の注目度): 11.068031181100276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual machine translation (MT) benchmarks play a central role in evaluating the capabilities of modern MT systems. Among them, the FLORES+ benchmark is widely used, offering English-to-many translation data for over 200 languages, curated with strict quality control protocols. However, we study data in four languages (Asante Twi, Japanese, Jinghpaw, and South Azerbaijani) and uncover critical shortcomings in the benchmark's suitability for truly multilingual evaluation. Human assessments reveal that many translations fall below the claimed 90% quality standard, and the annotators report that source sentences are often too domain-specific and culturally biased toward the English-speaking world. We further demonstrate that simple heuristics, such as copying named entities, can yield non-trivial BLEU scores, suggesting vulnerabilities in the evaluation protocol. Notably, we show that MT models trained on high-quality, naturalistic data perform poorly on FLORES+ while achieving significant gains on our domain-relevant evaluation set. Based on these findings, we advocate for multilingual MT benchmarks that use domain-general and culturally neutral source texts rely less on named entities, in order to better reflect real-world translation challenges.
- Abstract(参考訳): 多言語機械翻訳(MT)ベンチマークは、現代のMTシステムの性能評価において中心的な役割を果たす。
中でもFLORES+ベンチマークは広く使われており、200以上の言語で英語から中国語への翻訳データを提供し、厳格な品質管理プロトコルでキュレーションされている。
しかし,本研究では,4言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータについて検討し,真に多言語評価に適したベンチマークの重大な問題点を明らかにする。
人間による評価では、多くの翻訳が要求される90%の品質基準を下回り、アノテーターは、原文はドメインに特有であり、しばしば英語を話す世界に対して文化的に偏っていると報告している。
さらに、名前付きエンティティのコピーのような単純なヒューリスティックスによって、非自明なBLEUスコアが得られることを実証し、評価プロトコルの脆弱性を提案する。
特に、FLORES+では、高品質で自然主義的なデータに基づいて訓練されたMTモデルの性能が低下し、ドメイン関連評価セットでは顕著に向上したことを示す。
これらの知見に基づいて,ドメイン汎用および文化的に中立なソーステキストを用いたマルチリンガルMTベンチマークを提案し,実世界の翻訳課題をよりよく反映するために,名前付きエンティティに頼らないようにした。
関連論文リスト
- Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文 参考訳(メタデータ) (2025-05-05T08:47:52Z) - On the Evaluation Practices in Multilingual NLP: Can Machine Translation Offer an Alternative to Human Translations? [19.346078451375693]
NLPにおける既存の評価フレームワークについて分析する。
より堅牢で信頼性の高い評価手法を提案する。
より単純なベースラインは,大規模多言語事前学習の恩恵を受けずに比較的高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-20T12:46:12Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual
Machine Translation [21.55080388385458]
本研究では,英語ウィキペディアから抽出した3001文からなるFLORES-101評価ベンチマークを紹介する。
結果として得られたデータセットは、低リソース言語の長い尾におけるモデル品質のより良い評価を可能にする。
論文 参考訳(メタデータ) (2021-06-06T17:58:12Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。