論文の概要: Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2106.08582v1
- Date: Wed, 16 Jun 2021 07:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:31:16.217721
- Title: Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳のための合成データと真正データを用いた交互学習
- Authors: Rui Jiao, Zonghan Yang, Maosong Sun and Yang Liu
- Abstract要約: ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
- 参考スコア(独自算出の注目度): 49.35605028467887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While synthetic bilingual corpora have demonstrated their effectiveness in
low-resource neural machine translation (NMT), adding more synthetic data often
deteriorates translation performance. In this work, we propose alternated
training with synthetic and authentic data for NMT. The basic idea is to
alternate synthetic and authentic corpora iteratively during training. Compared
with previous work, we introduce authentic data as guidance to prevent the
training of NMT models from being disturbed by noisy synthetic data.
Experiments on Chinese-English and German-English translation tasks show that
our approach improves the performance over several strong baselines. We
visualize the BLEU landscape to further investigate the role of authentic and
synthetic data during alternated training. From the visualization, we find that
authentic data helps to direct the NMT model parameters towards points with
higher BLEU scores and leads to consistent translation performance improvement.
- Abstract(参考訳): 合成バイリンガルコーパスは低リソースニューラルマシン翻訳(nmt)においてその効果を示したが、より多くの合成データを加えると翻訳性能が低下する。
本研究では,NMTのための合成および認証データを用いた交互トレーニングを提案する。
基本的な考え方は、トレーニング中に反復的に合成と認証を交互に行うことである。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入する。
中国語とドイツ語と英語の翻訳タスクを実験した結果,複数の強いベースラインのパフォーマンスが向上した。
BLEUランドスケープを可視化し、交互学習における認証データと合成データの役割をさらに調査する。
可視化の結果,NMTモデルのパラメータをBLEUスコアの高い点に向けることで,一貫した翻訳性能の向上が期待できることがわかった。
関連論文リスト
- Non-Fluent Synthetic Target-Language Data Improve Neural Machine
Translation [0.0]
本研究では,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを示す。
この改善は、元のトレーニングコーパスのサイズとは無関係である。
論文 参考訳(メタデータ) (2024-01-29T11:52:45Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Synthetic Source Language Augmentation for Colloquial Neural Machine
Translation [3.303435360096988]
youtube と twitter から収集した新しいインドネシア英語テストセットを開発した。
インドネシア語正規語のソースに合成スタイル拡張を行い、ベースラインのId-Enモデルを改善することを示す。
論文 参考訳(メタデータ) (2020-12-30T14:52:15Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z) - AR: Auto-Repair the Synthetic Data for Neural Machine Translation [34.36472405208541]
本稿では,合成データの質を向上させるための新しい自動修復(AR)フレームワークを提案する。
提案したARモデルは,低品質(ノイズの多い)入力文から高品質な文への変換を学習することができる。
本手法は, 合成並列データの品質向上に有効であり, 補修した合成データを用いたNMTモデルにより一貫した改善が達成される。
論文 参考訳(メタデータ) (2020-04-05T13:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。