論文の概要: On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation
- arxiv url: http://arxiv.org/abs/2005.01196v3
- Date: Mon, 8 Jun 2020 11:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:42:03.416014
- Title: On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation
- Title(参考訳): 参照自由機械翻訳評価による言語間エンコーダの限界について
- Authors: Wei Zhao, Goran Glava\v{s}, Maxime Peyrard, Yang Gao, Robert West,
Steffen Eger
- Abstract要約: クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
- 参考スコア(独自算出の注目度): 55.02832094101173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of cross-lingual encoders is usually performed either via
zero-shot cross-lingual transfer in supervised downstream tasks or via
unsupervised cross-lingual textual similarity. In this paper, we concern
ourselves with reference-free machine translation (MT) evaluation where we
directly compare source texts to (sometimes low-quality) system translations,
which represents a natural adversarial setup for multilingual encoders.
Reference-free evaluation holds the promise of web-scale comparison of MT
systems. We systematically investigate a range of metrics based on
state-of-the-art cross-lingual semantic representations obtained with
pretrained M-BERT and LASER. We find that they perform poorly as semantic
encoders for reference-free MT evaluation and identify their two key
limitations, namely, (a) a semantic mismatch between representations of mutual
translations and, more prominently, (b) the inability to punish
"translationese", i.e., low-quality literal translations. We propose two
partial remedies: (1) post-hoc re-alignment of the vector spaces and (2)
coupling of semantic-similarity based metrics with target-side language
modeling. In segment-level MT evaluation, our best metric surpasses
reference-based BLEU by 5.7 correlation points.
- Abstract(参考訳): クロスリンガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットクロスリンガル転送または教師なしクロスリンガルテキスト類似性を介して行われる。
本稿では,ソースコードを,多言語エンコーダの自然な対角的設定である(低品質な)システム翻訳と直接比較する,参照自由機械翻訳(MT)の評価に関心を持つ。
参照なし評価は、MTシステムのWebスケール比較の約束である。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価におけるセマンティックエンコーダとしての性能は低く,その2つの重要な制限,すなわち2つを識別する。
(a)相互翻訳の表現と、より目立つものとの意味的ミスマッチ
(b)「翻訳」、すなわち低品質リテラル翻訳を罰することができないこと。
本稿では,(1)ベクトル空間のポストホックな再アライメント,(2)意味相似性に基づくメトリクスとターゲット側言語モデリングとの結合という2つの部分的治療法を提案する。
セグメントレベルのMT評価では、基準ベースのBLEUを5.7の相関点で上回っている。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。