論文の概要: Rethinking Round-trip Translation for Automatic Machine Translation
Evaluation
- arxiv url: http://arxiv.org/abs/2209.07351v1
- Date: Thu, 15 Sep 2022 15:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:39:25.008578
- Title: Rethinking Round-trip Translation for Automatic Machine Translation
Evaluation
- Title(参考訳): 自動機械翻訳評価のためのラウンドトリップ翻訳の再考
- Authors: Terry Yue Zhuo, Qiongkai Xu, Xuanli He, Trevor Cohn
- Abstract要約: 並列コーパスは、BLEU、METEOR、BERTScoreなどのメトリクスを使用して翻訳品質を自動評価するために一般的に必要とされる。
本稿では, ラウンドトリップ翻訳スコアに基づいて, 前方翻訳スコアの性能を予測するための, 単純かつ効果的な回帰手法を提案する。
- 参考スコア(独自算出の注目度): 44.83568796515321
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A parallel corpus is generally required to automatically evaluate the
translation quality using the metrics, such as BLEU, METEOR and BERTScore.
While the reference-based evaluation paradigm is widely used in many machine
translation tasks, it is difficult to be applied to translation with
low-resource languages, as those languages suffer from a deficiency of corpora.
Round-trip translation provides an encouraging way to alleviate the urgent
requirement of the parallel corpus, although it was unfortunately not observed
to correlate with forwarding translation in the era of statistical machine
translation. In this paper, we firstly observe that forward translation quality
consistently correlates to corresponding round-trip translation quality in the
scope of neural machine translation. Then, we carefully analyse and unveil the
reason for the contradictory results on statistical machine translation
systems. Secondly, we propose a simple yet effective regression method to
predict the performance of forward translation scores based on round-trip
translation scores for various language pairs, including those between very
low-resource languages. We conduct extensive experiments to show the
effectiveness and robustness of the predictive models on 1,000+ language pairs.
Finally, we test our method on challenging settings, such as predicting scores:
i) for unseen language pairs in training and ii) on real-world WMT shared tasks
but in new domains. The extensive experiments demonstrate the robustness and
utility of our approach. We believe our work will inspire works on very
low-resource multilingual machine translation.
- Abstract(参考訳): 並列コーパスは、BLEU、METEOR、BERTScoreなどのメトリクスを使用して翻訳品質を自動評価するために一般的に必要とされる。
参照に基づく評価パラダイムは多くの機械翻訳タスクで広く使われているが、コーパスの欠如に悩まされているため、低リソース言語での翻訳に適用することは困難である。
ラウンドトリップ翻訳は並列コーパスの緊急要求を緩和する方法として推奨されるが、統計機械翻訳時代の転送翻訳と相関することは残念ながら観察されなかった。
本稿では,まず,前進翻訳品質が,神経機械翻訳の範囲内で対応するラウンドトリップ翻訳品質と一貫して相関していることを観察する。
そして,統計的機械翻訳システムにおいて,矛盾する結果の理由を慎重に分析し,明らかにする。
第二に,低資源言語間を含む様々な言語対のラウンドトリップ翻訳スコアに基づいて,前方翻訳スコアの性能を予測するための簡易かつ効果的な回帰法を提案する。
1000以上の言語ペアにおける予測モデルの有効性と頑健性を示すために,広範な実験を行った。
最後に、スコアの予測などの困難な設定について、本手法を試す。
一 訓練中の見当たらない言語対及び
二 現実世界のWMTではタスクを共有するが、新しいドメインでは共有する。
大規模な実験は、我々のアプローチの堅牢性と有用性を示している。
私たちの仕事は、非常に低リソースの多言語機械翻訳に刺激を与えるでしょう。
関連論文リスト
- Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - A Bayesian approach to translators' reliability assessment [0.0]
我々は、複雑なシステムの観点から、翻訳品質評価プロセスを複雑なプロセスとみなす。
TQAプロセスに関わる特徴,すなわち翻訳難易度,翻訳生成と品質評価に関わる翻訳者の特性をパラメータ化する2つのベイズモデルを構築した。
専門家翻訳者であっても、レビュアーの信頼性は当然と言えないことを示す。
論文 参考訳(メタデータ) (2022-03-14T14:29:45Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - The Impact of Indirect Machine Translation on Sentiment Classification [6.719549885077474]
本稿では,顧客からのフィードバックを他の言語に翻訳する機械翻訳システムを提案する。
直接翻訳が必ずしも可能であるとは限らないため、翻訳された文に対する自動分類器の性能について検討する。
提案する感情分類システムの性能を解析し、翻訳文の分類の利点と欠点について考察する。
論文 参考訳(メタデータ) (2020-08-25T20:30:21Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。