論文の概要: AdMix: A Mixed Sample Data Augmentation Method for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2205.04686v1
- Date: Tue, 10 May 2022 05:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:53:14.504425
- Title: AdMix: A Mixed Sample Data Augmentation Method for Neural Machine
Translation
- Title(参考訳): AdMix: ニューラルネットワーク翻訳のための混合サンプルデータ拡張手法
- Authors: Chang Jin, Shigui Qiu, Nini Xiao, Hao Jia
- Abstract要約: ニューラルネットワーク翻訳(NMT)のための新しいデータ拡張手法を提案する。
AdMix は,(1) 原文対にかすかな離散ノイズを導入して増補サンプルを生成する,2) 増補サンプルを原文コーパスに軟混合することにより,新たな合成訓練データを生成する,という2つの部分から構成される。
異なるスケールの3つの翻訳データセットの実験では、AdMixは強力なトランスフォーマーベースラインよりもシグニフィカントの改善(1.0から2.7 BLEUポイント)を達成している。
- 参考スコア(独自算出の注目度): 1.6221957454728797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Neural Machine Translation (NMT), data augmentation methods such as
back-translation have proven their effectiveness in improving translation
performance. In this paper, we propose a novel data augmentation approach for
NMT, which is independent of any additional training data. Our approach, AdMix,
consists of two parts: 1) introduce faint discrete noise (word replacement,
word dropping, word swapping) into the original sentence pairs to form
augmented samples; 2) generate new synthetic training data by softly mixing the
augmented samples with their original samples in training corpus. Experiments
on three translation datasets of different scales show that AdMix achieves
signifi cant improvements (1.0 to 2.7 BLEU points) over strong Transformer
baseline. When combined with other data augmentation techniques (e.g.,
back-translation), our approach can obtain further improvements.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)では、バックトランスレーションなどのデータ拡張手法が翻訳性能の向上に有効であることが証明されている。
本稿では,追加のトレーニングデータとは無関係なnmtのための新しいデータ拡張手法を提案する。
私たちのアプローチであるAdMixは2つの部分で構成されています。
1) 原文対に明瞭な離散ノイズ(単語置換,単語ドロップ,単語スワップ)を導入し,追加サンプルを作成する。
2) 強化試料と元の試料とを柔らかく混合することにより, 新たな合成訓練データを生成する。
異なるスケールの3つの翻訳データセットの実験では、AdMixは強力なトランスフォーマーベースラインよりもシグニフィカントの改善(1.0から2.7 BLEUポイント)を達成している。
他のデータ拡張技術(バックトランスレーションなど)と組み合わせることで,さらなる改善が期待できる。
関連論文リスト
- Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - End-to-End Training of Both Translation Models in the Back-Translation
Framework [0.0]
ニューラルマシン翻訳(NMT)における半教師付き学習アルゴリズムは、追加のモノリンガルコーパスを用いて翻訳品質を著しく改善した。
バックトランスレーションは理論的によく構造化され、最先端の手法である。
本稿では,VAEの後方翻訳のためのトレーニングフレームワークを実践的に実装し,エンドツーエンドのバックプロパゲーションによって学習する,微分可能な文を生成する分類的再パラメータ化手法を提案する。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Mixup Decoding for Diverse Machine Translation [26.79346928424374]
入力文に対して異なる翻訳を生成する新しい手法であるMixDiversityを提案する。
重みを制御することにより,付加的なトレーニングを伴わずに,忠実性と多様性のトレードオフを実現することができる。
WMT'16 en-ro, WMT'14 en-de, WMT'17 zh-enの実験を行い, 従来の機械翻訳法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2021-09-08T02:39:03Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。