論文の概要: Regressive Ensemble for Machine Translation Quality Evaluation
- arxiv url: http://arxiv.org/abs/2109.07242v1
- Date: Wed, 15 Sep 2021 12:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 21:01:06.592880
- Title: Regressive Ensemble for Machine Translation Quality Evaluation
- Title(参考訳): 機械翻訳品質評価のための回帰アンサンブル
- Authors: Michal \v{S}tef\'anik and V\'it Novotn\'y and Petr Sojka
- Abstract要約: 本研究は,機械翻訳品質を評価するための単純な回帰アンサンブルを導入する。
我々は,WMT 2021 MetricsワークショップのエキスパートベースのMQMスコアと相関して,アンサンブルを評価する。
モノリンガルとゼロショットのクロスリンガル設定の両方において、単一のメトリクスよりも大幅にパフォーマンスが向上したことを示す。
- 参考スコア(独自算出の注目度): 0.4235683368164405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces a simple regressive ensemble for evaluating machine
translation quality based on a set of novel and established metrics. We
evaluate the ensemble using a correlation to expert-based MQM scores of the WMT
2021 Metrics workshop. In both monolingual and zero-shot cross-lingual
settings, we show a significant performance improvement over single metrics. In
the cross-lingual settings, we also demonstrate that an ensemble approach is
well-applicable to unseen languages. Furthermore, we identify a strong
reference-free baseline that consistently outperforms the commonly-used BLEU
and METEOR measures and significantly improves our ensemble's performance.
- Abstract(参考訳): 本研究は,一組の新規かつ確立されたメトリクスに基づいて機械翻訳品質を評価するための単純な回帰アンサンブルを導入する。
我々は,WMT 2021 MetricsワークショップのエキスパートベースのMQMスコアと相関してアンサンブルを評価する。
モノリンガルおよびゼロショットのクロスリンガル設定では、単一のメトリクスよりも大幅にパフォーマンスが向上しています。
言語横断的な設定では、アンサンブルアプローチが目に見えない言語に適用可能であることも示している。
さらに,一般に使用されているBLEUとMETEORの指標を一貫して上回り,アンサンブルの性能を大幅に向上させる強力な参照フリーベースラインを同定する。
関連論文リスト
- Investigating Multilingual Coreference Resolution by Universal
Annotations [11.035051211351213]
本研究では,言語レベルでの真理データを調べることによって,コア推論について検討する。
我々は、SotAシステムが解決できない最も困難なケースのエラー解析を行う。
普遍的な形態素的アノテーションから特徴を抽出し,これらの特徴をベースラインシステムに統合し,その潜在的な利点を評価する。
論文 参考訳(メタデータ) (2023-10-26T18:50:04Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - Unbabel's Participation in the WMT20 Metrics Shared Task [8.621669980568822]
We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics。
すべての言語ペアでセグメントレベル、文書レベル、システムレベルのトラックに参加するつもりです。
前年度のテストセットを参考に、これらのトラックでモデルの結果を説明します。
論文 参考訳(メタデータ) (2020-10-29T12:59:44Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。