論文の概要: On the Language Coverage Bias for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2106.03297v1
- Date: Mon, 7 Jun 2021 01:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:00:53.642490
- Title: On the Language Coverage Bias for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための言語被覆バイアスについて
- Authors: Shuo Wang, Zhaopeng Tu, Zhixing Tan, Shuming Shi, Maosong Sun, Yang
Liu
- Abstract要約: 言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 81.81456880770762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language coverage bias, which indicates the content-dependent differences
between sentence pairs originating from the source and target languages, is
important for neural machine translation (NMT) because the target-original
training data is not well exploited in current practice. By carefully designing
experiments, we provide comprehensive analyses of the language coverage bias in
the training data, and find that using only the source-original data achieves
comparable performance with using full training data. Based on these
observations, we further propose two simple and effective approaches to
alleviate the language coverage bias problem through explicitly distinguishing
between the source- and target-original training data, which consistently
improve the performance over strong baselines on six WMT20 translation tasks.
Complementary to the translationese effect, language coverage bias provides
another explanation for the performance drop caused by back-translation. We
also apply our approach to both back- and forward-translation and find that
mitigating the language coverage bias can improve the performance of both the
two representative data augmentation methods and their tagged variants.
- Abstract(参考訳): 言語カバレッジバイアス(Language coverage bias)は、ソースから派生した文対とターゲット言語から派生した文対間の内容依存的な差異を示すもので、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより,学習データにおける言語被覆バイアスの包括的解析を行い,原産地データのみを用いることで,完全なトレーニングデータを用いて同等の性能が得られることを示す。
これらの結果に基づき,6つのwmt20翻訳タスクにおいて,強いベースラインに対する性能を一貫して向上させるソースとターゲット固有のトレーニングデータを明確に区別することにより,言語カバレッジバイアス問題を緩和するための2つの簡易かつ効果的なアプローチを提案する。
翻訳効果の補完として、言語カバレッジバイアスは、バックトランスレーションによるパフォーマンス低下の別の説明を提供する。
また,言語カバレッジバイアスを緩和することで,2つの代表的なデータ拡張手法とタグ付き変種の性能を向上させることができることを示す。
関連論文リスト
- A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。