論文の概要: Verdi: Quality Estimation and Error Detection for Bilingual
- arxiv url: http://arxiv.org/abs/2105.14878v1
- Date: Mon, 31 May 2021 11:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 01:07:41.581155
- Title: Verdi: Quality Estimation and Error Detection for Bilingual
- Title(参考訳): Verdi:バイリンガルの品質評価と誤り検出
- Authors: Mingjun Zhao, Haijiang Wu, Di Niu, Zixuan Wang, Xiaoli Wang
- Abstract要約: Verdiはバイリンガルコーパスのための単語レベルおよび文レベルの後編集作業推定のための新しいフレームワークである。
バイリンガルコーパスの対称性を活用し,NMT予測器にモデルレベル二重学習を適用した。
我々の手法は競争の勝者を圧倒し、他の基準法よりも大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 23.485380293716272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translation Quality Estimation is critical to reducing post-editing efforts
in machine translation and to cross-lingual corpus cleaning. As a research
problem, quality estimation (QE) aims to directly estimate the quality of
translation in a given pair of source and target sentences, and highlight the
words that need corrections, without referencing to golden translations. In
this paper, we propose Verdi, a novel framework for word-level and
sentence-level post-editing effort estimation for bilingual corpora. Verdi
adopts two word predictors to enable diverse features to be extracted from a
pair of sentences for subsequent quality estimation, including a
transformer-based neural machine translation (NMT) model and a pre-trained
cross-lingual language model (XLM). We exploit the symmetric nature of
bilingual corpora and apply model-level dual learning in the NMT predictor,
which handles a primal task and a dual task simultaneously with weight sharing,
leading to stronger context prediction ability than single-direction NMT
models. By taking advantage of the dual learning scheme, we further design a
novel feature to directly encode the translated target information without
relying on the source context. Extensive experiments conducted on WMT20 QE
tasks demonstrate that our method beats the winner of the competition and
outperforms other baseline methods by a great margin. We further use the
sentence-level scores provided by Verdi to clean a parallel corpus and observe
benefits on both model performance and training efficiency.
- Abstract(参考訳): 翻訳品質評価は,翻訳後作業の削減と言語間コーパスクリーニングに重要である。
研究課題として、品質推定(QE)は、ソースとターゲットの文のペアにおける翻訳の質を直接推定し、黄金の翻訳を参照することなく修正が必要な単語をハイライトすることを目的としている。
本稿では,バイリンガルコーパスにおける単語レベルおよび文レベルの後編集作業量推定のための新しいフレームワークであるverdiを提案する。
verdiは2つの単語予測器を採用し、トランスフォーマーベースのニューラルマシン翻訳(nmt)モデルや事前学習された言語間言語モデル(xlm)など、後続の品質推定のために2つの文から多様な特徴を抽出することができる。
本研究では,二言語コーパスの対称的性質を活かし,モデルレベルの2重学習をnmt予測器に適用し,主課題と2重課題を同時に処理し,重み共有を行うことにより,単方向nmtモデルよりも文脈予測能力の強化を図る。
デュアルラーニング方式を利用して、ソースコンテキストに依存することなく、翻訳対象情報を直接符号化する新たな特徴を設計する。
wmt20 qeタスクで行った広範囲な実験により、本手法がコンペティションの勝者を上回り、他のベースライン手法を大きく上回ることを示した。
さらに、verdiが提供する文レベルのスコアを用いて並列コーパスをクリーンにし、モデル性能とトレーニング効率の両方の利点を享受する。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。