論文の概要: Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task
- arxiv url: http://arxiv.org/abs/2010.04297v3
- Date: Mon, 19 Oct 2020 22:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:27:13.266746
- Title: Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task
- Title(参考訳): 英語以外の翻訳を評価するための学習:WMT Metrics 2020共有タスクへのBLEURTの提出
- Authors: Thibault Sellam, Amy Pu, Hyung Won Chung, Sebastian Gehrmann, Qijun
Tan, Markus Freitag, Dipanjan Das, Ankur P. Parikh
- Abstract要約: 本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
- 参考スコア(独自算出の注目度): 30.889496911261677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of machine translation systems has dramatically improved over the
last decade, and as a result, evaluation has become an increasingly challenging
problem. This paper describes our contribution to the WMT 2020 Metrics Shared
Task, the main benchmark for automatic evaluation of translation. We make
several submissions based on BLEURT, a previously published metric based on
transfer learning. We extend the metric beyond English and evaluate it on 14
language pairs for which fine-tuning data is available, as well as 4
"zero-shot" language pairs, for which we have no labelled examples.
Additionally, we focus on English to German and demonstrate how to combine
BLEURT's predictions with those of YiSi and use alternative reference
translations to enhance the performance. Empirical results show that the models
achieve competitive results on the WMT Metrics 2019 Shared Task, indicating
their promise for the 2020 edition.
- Abstract(参考訳): 機械翻訳システムの質はこの10年間で劇的に改善され、その結果、評価はますます難しい問題になっている。
本稿では,翻訳の自動評価のための主要なベンチマークであるWMT 2020 Metrics Shared Taskへの貢献について述べる。
我々は、転送学習に基づくメトリクスBLEURTに基づいて、いくつかの提案を行う。
我々は、このメトリクスを英語以外にも拡張し、14の言語ペア(微調整データを利用できる)と4つの「ゼロショット」言語ペア(ラベル付き例がない)で評価する。
さらに、英語とドイツ語に焦点を合わせ、BLEURTの予測とYiSiの予測を組み合わせ、代替の参照翻訳を用いて性能を向上させる方法を示す。
実証的な結果は、モデルがwmt metrics 2019の共有タスクで競争力のある結果を達成していることを示している。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - QEMind: Alibaba's Submission to the WMT21 Quality Estimation Shared Task [24.668012925628968]
我々は、WMT 2021 QE共有タスクに提出する。
テキストQEMindというQEシステムを構築するための翻訳の不確実性を評価するために有用な機能をいくつか提案する。
我々は、WMT 2020のダイレクトアセスメントQEタスクにおいて、我々の多言語システムが最高のシステムより優れていることを示す。
論文 参考訳(メタデータ) (2021-12-30T02:27:29Z) - The JHU-Microsoft Submission for WMT21 Quality Estimation Shared Task [14.629380601429956]
本稿では,WMT 2021の品質評価共有タスクに対するJHU-Microsoft共同提案を提案する。
我々は,目標側の単語レベルの品質評価に焦点をあて,共有タスクのタスク2(後編集作業推定)にのみ参加する。
我々は,広く採用されているOpenKiwi-XLMベースラインと比較して,システムの競争力を示す。
論文 参考訳(メタデータ) (2021-09-17T19:13:31Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - Unbabel's Participation in the WMT20 Metrics Shared Task [8.621669980568822]
We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics。
すべての言語ペアでセグメントレベル、文書レベル、システムレベルのトラックに参加するつもりです。
前年度のテストセットを参考に、これらのトラックでモデルの結果を説明します。
論文 参考訳(メタデータ) (2020-10-29T12:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。