論文の概要: Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2203.08394v1
- Date: Wed, 16 Mar 2022 04:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:56:20.036808
- Title: Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation
- Title(参考訳): 教師なしニューラルマシン翻訳のためのトレーニングと推論の間のデータギャップの橋渡し
- Authors: Zhiwei He, Xing Wang, Rui Wang, Shuming Shi, Zhaopeng Tu
- Abstract要約: UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
- 参考スコア(独自算出の注目度): 49.916963624249355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Back-translation is a critical component of Unsupervised Neural Machine
Translation (UNMT), which generates pseudo parallel data from target
monolingual data. A UNMT model is trained on the pseudo parallel data with
translated source, and translates natural source sentences in inference. The
source discrepancy between training and inference hinders the translation
performance of UNMT models. By carefully designing experiments, we identify two
representative characteristics of the data gap in source: (1) style gap (i.e.,
translated vs. natural text style) that leads to poor generalization
capability; (2) content gap that induces the model to produce hallucination
content biased towards the target language. To narrow the data gap, we propose
an online self-training approach, which simultaneously uses the pseudo parallel
data {natural source, translated target} to mimic the inference scenario.
Experimental results on several widely-used language pairs show that our
approach outperforms two strong baselines (XLM and MASS) by remedying the style
and content gaps.
- Abstract(参考訳): バックトランスレーションはunsupervised Neural Machine Translation(UNMT)の重要なコンポーネントであり、ターゲット単言語データから擬似並列データを生成する。
UNMTモデルは、翻訳されたソースで擬似並列データに基づいて訓練され、推論で自然言語を翻訳する。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
実験を慎重に設計することにより,(1)一般化能力の低下につながるスタイルギャップ(翻訳対自然テキストスタイル),(2)モデルが対象言語に偏った幻覚コンテンツを生成するように誘導するコンテンツギャップの2つのデータギャップの特徴を同定した。
データギャップを狭めるために,疑似並列データ “natural source, translation target} を同時に利用して推論シナリオを模倣するオンライン自己学習手法を提案する。
複数の広く使われている言語対の実験結果から,本手法はスタイルと内容のギャップを緩和することにより,2つの強いベースライン(XLMとMASS)より優れていることが示された。
関連論文リスト
- Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Exploring Monolingual Data for Neural Machine Translation with Knowledge
Distillation [10.745228927771915]
ニューラルマシン翻訳(nmt)のための知識蒸留訓練に含まれる2種類の単言語データについて検討する。
ソース側モノリンガルデータは,ソース側から得られたテストセットによって評価すると,モデルの性能が向上することがわかった。
また、ドメインが同じである限り、教師が使用するデータと同じデータを用いて、生徒モデルのトレーニングは不要であることを示す。
論文 参考訳(メタデータ) (2020-12-31T05:28:42Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。