論文の概要: Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation
- arxiv url: http://arxiv.org/abs/2212.10257v1
- Date: Tue, 20 Dec 2022 14:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:41:09.587807
- Title: Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation
- Title(参考訳): オリジナルか翻訳か?
翻訳品質推定における並列データの利用について
- Authors: Baopu Qiu, Liang Ding, Di Wu, Lin Shang, Yibing Zhan, Dacheng Tao
- Abstract要約: 並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 81.27850245734015
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Machine Translation Quality Estimation (QE) is the task of evaluating
translation output in the absence of human-written references. Due to the
scarcity of human-labeled QE data, previous works attempted to utilize the
abundant unlabeled parallel corpora to produce additional training data with
pseudo labels. In this paper, we demonstrate a significant gap between parallel
data and real QE data: for QE data, it is strictly guaranteed that the source
side is original texts and the target side is translated (namely
translationese). However, for parallel data, it is indiscriminate and the
translationese may occur on either source or target side. We compare the impact
of parallel data with different translation directions in QE data augmentation,
and find that using the source-original part of parallel corpus consistently
outperforms its target-original counterpart. Moreover, since the WMT corpus
lacks direction information for each parallel sentence, we train a classifier
to distinguish source- and target-original bitext, and carry out an analysis of
their difference in both style and domain. Together, these findings suggest
using source-original parallel data for QE data augmentation, which brings a
relative improvement of up to 4.0% and 6.4% compared to undifferentiated data
on sentence- and word-level QE tasks respectively.
- Abstract(参考訳): 機械翻訳品質評価(英: Machine Translation Quality Estimation, QE)は、人手による参照のない翻訳結果を評価するタスクである。
人間のラベル付きQEデータの不足により、従来の研究は、豊富なラベル付き並列コーパスを使用して、擬似ラベルを用いた追加のトレーニングデータを作成しようとした。
本稿では、並列データと実際のqeデータとの間に大きなギャップを示す。 qeデータでは、ソース側が原文であり、ターゲット側が翻訳される(すなわち翻訳)ことが厳密に保証される。
しかし、並列データの場合、それは無差別であり、翻訳はソースまたはターゲットのどちら側でも起こりうる。
qeデータ拡張における並列データの影響を異なる翻訳方向と比較し,並列コーパスの原元部分の使用が,対象とするコーパスよりも一貫して優れていることを見出した。
また、wmtコーパスは、並列文毎に方向情報を欠いているため、ソース文とターゲット元のバイテキストを区別するために分類器を訓練し、スタイルとドメインの差異を分析する。
これらの結果から,QEデータ拡張にソース由来の並列データを用いることで,文レベルおよび単語レベルのQEタスクにおける未分化データと比較して,最大4.0%と6.4%の改善が得られた。
関連論文リスト
- Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:23:36Z) - APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation [48.47548479232714]
本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
論文 参考訳(メタデータ) (2023-12-18T16:06:18Z) - Data Augmentation for Code Translation with Comparable Corpora and Multiple References [21.754147577489764]
我々は、自然言語ドキュメントから生成されたプログラムを含む、比較可能なコーパスの複数のタイプを構築し、分析する。
単一の参照変換に対する過度な適合を低減するため、利用可能な並列データに対する追加の翻訳参照を自動生成する。
実験の結果,Java,Python,C++間の変換において,平均7.5%の計算精度でコードT5が大幅に改善された。
論文 参考訳(メタデータ) (2023-11-01T06:01:22Z) - Translating away Translationese without Parallel Data [14.423809260672877]
翻訳されたテキストは、同じ言語の原文と比較して体系的な言語的差異を示す。
本稿では,翻訳文の翻訳文を減らすための新しい手法について検討する。
自己監督損失と教師なし損失を組み合わせて並列検証データの必要性を解消する方法を示す。
論文 参考訳(メタデータ) (2023-10-28T22:11:25Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。