論文の概要: Original or Translated? A Causal Analysis of the Impact of
Translationese on Machine Translation Performance
- arxiv url: http://arxiv.org/abs/2205.02293v1
- Date: Wed, 4 May 2022 19:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 13:39:16.683240
- Title: Original or Translated? A Causal Analysis of the Impact of
Translationese on Machine Translation Performance
- Title(参考訳): オリジナルか翻訳か?
機械翻訳性能に及ぼす翻訳文の影響の因果解析
- Authors: Jingwei Ni, Zhijing Jin, Markus Freitag, Mrinmaya Sachan, Bernhard
Sch\"olkopf
- Abstract要約: 人間に翻訳されたテキストは、同じ言語で自然に書かれたテキストとは異なる特徴を示す。
翻訳に関する既存の研究はいくつかの重要な要因を無視しており、結論は主として相関性があるが因果関係ではない。
これら2つの要因がMT性能に大きな因果関係を持つことを示す。
- 参考スコア(独自算出の注目度): 31.47795931399995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-translated text displays distinct features from naturally written text
in the same language. This phenomena, known as translationese, has been argued
to confound the machine translation (MT) evaluation. Yet, we find that existing
work on translationese neglects some important factors and the conclusions are
mostly correlational but not causal. In this work, we collect CausalMT, a
dataset where the MT training data are also labeled with the human translation
directions. We inspect two critical factors, the train-test direction match
(whether the human translation directions in the training and test sets are
aligned), and data-model direction match (whether the model learns in the same
direction as the human translation direction in the dataset). We show that
these two factors have a large causal effect on the MT performance, in addition
to the test-model direction mismatch highlighted by existing work on the impact
of translationese. In light of our findings, we provide a set of suggestions
for MT training and evaluation. Our code and data are at
https://github.com/EdisonNi-hku/CausalMT
- Abstract(参考訳): 人間翻訳されたテキストは、同じ言語で自然に書かれたテキストとは異なる特徴を示す。
この現象は翻訳(translationese)と呼ばれ、機械翻訳(MT)の評価を損なうと論じられている。
しかし、翻訳に関する既存の研究はいくつかの重要な要因を無視しており、結論は主に相関関係にあるが因果関係ではない。
本研究では,MTトレーニングデータに人間の翻訳方向をラベル付けしたデータセットであるCausalMTを収集する。
我々は、列車試験方向一致(訓練及び試験セットにおける人間の翻訳方向が一致している場合)とデータモデル方向一致(モデルがデータセットにおける人間の翻訳方向と同じ方向に学習する場合)の2つの重要な要因を検査する。
これらの2つの要因がmt性能に大きな因果的影響を示すとともに,既存の研究で強調された翻訳の影響に対するテストモデル方向のミスマッチも示している。
本研究の成果を踏まえて,MTトレーニングと評価について提案する。
コードとデータはhttps://github.com/EdisonNi-hku/CausalMTにある。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Evaluation of Chinese-English Machine Translation of Emotion-Loaded
Microblog Texts: A Human Annotated Dataset for the Quality Assessment of
Emotion Translation [7.858458986992082]
本稿では,感情を重畳したテキストの翻訳において,現在の機械翻訳(MT)ツールがどのように機能するかに焦点を当てる。
本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。
論文 参考訳(メタデータ) (2023-06-20T21:22:45Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。