論文の概要: Rethinking Data Augmentation for Low-Resource Neural Machine
Translation: A Multi-Task Learning Approach
- arxiv url: http://arxiv.org/abs/2109.03645v1
- Date: Wed, 8 Sep 2021 13:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:50:57.465927
- Title: Rethinking Data Augmentation for Low-Resource Neural Machine
Translation: A Multi-Task Learning Approach
- Title(参考訳): 低リソースニューラルマシン翻訳のためのデータ拡張再考--マルチタスク学習アプローチ
- Authors: V\'ictor M. S\'anchez-Cartagena, Miquel Espl\`a-Gomis, Juan Antonio
P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez
- Abstract要約: データ拡張(DA)技術は、利用可能な並列データが不足している場合に、追加のトレーニングサンプルを生成するために使用することができる。
変換を伴う新しい文対を生成するマルチタスクDA手法を提案する。
本研究では,経験的データ配信のサポート拡大を目的とした,ベースラインとDAメソッドの相反する改善点を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of neural machine translation, data augmentation (DA)
techniques may be used for generating additional training samples when the
available parallel data are scarce. Many DA approaches aim at expanding the
support of the empirical data distribution by generating new sentence pairs
that contain infrequent words, thus making it closer to the true data
distribution of parallel sentences. In this paper, we propose to follow a
completely different approach and present a multi-task DA approach in which we
generate new sentence pairs with transformations, such as reversing the order
of the target sentence, which produce unfluent target sentences. During
training, these augmented sentences are used as auxiliary tasks in a multi-task
framework with the aim of providing new contexts where the target prefix is not
informative enough to predict the next word. This strengthens the encoder and
forces the decoder to pay more attention to the source representations of the
encoder. Experiments carried out on six low-resource translation tasks show
consistent improvements over the baseline and over DA methods aiming at
extending the support of the empirical data distribution. The systems trained
with our approach rely more on the source tokens, are more robust against
domain shift and suffer less hallucinations.
- Abstract(参考訳): ニューラルマシン翻訳の文脈では、データ拡張(da)技術は、利用可能な並列データが不足している場合に追加のトレーニングサンプルを生成するのに使用できる。
多くのDAアプローチは、頻度の低い単語を含む新しい文対を生成することによって、経験的データ分散のサポートの拡大を目標とし、並列文の真のデータ分布に近づける。
本稿では,対象文の順序を逆転させ,不均一な対象文を生成するなど,変換を伴う新しい文対を生成するマルチタスクda手法を提案する。
トレーニング中、これらの拡張文はマルチタスクフレームワークの補助タスクとして使用され、ターゲットプレフィックスが次の単語を予測するのに十分な情報を持たない新しいコンテキストを提供することを目的としている。
これによりエンコーダが強化され、デコーダはエンコーダのソース表現にもっと注意を払わざるを得なくなる。
6つの低リソース翻訳タスクで行った実験は、経験的データ配信のサポートの拡張を目的としたベースラインとDAメソッドに一貫した改善を示す。
私たちのアプローチでトレーニングされたシステムはソーストークンに依存しており、ドメインシフトに対してより堅牢であり、幻覚を少なくしています。
関連論文リスト
- Deterministic Reversible Data Augmentation for Neural Machine Translation [36.10695293724949]
本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的なデータ拡張法であるDRDA(Deterministic Reversible Data Augmentation)を提案する。
余分なコーパスやモデルの変更は必要ないため、DRDAはいくつかの翻訳タスクにおいて、明確なマージンで強いベースラインを上回ります。
DRDAはノイズ、低リソース、クロスドメインデータセットにおいて優れた堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-04T17:39:23Z) - Curricular Transfer Learning for Sentence Encoded Tasks [0.0]
本稿では「データハッキング」と文法解析によって導かれる事前学習の手順を提案する。
実験では,MultiWoZタスクの事前学習手法と比較して,提案手法からかなりの改善が得られた。
論文 参考訳(メタデータ) (2023-08-03T16:18:19Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Regularizing Deep Networks with Semantic Data Augmentation [44.53483945155832]
従来の手法を補完する新しい意味データ拡張アルゴリズムを提案する。
提案手法はディープネットワークが線形化特徴の学習に有効であるという興味深い性質に着想を得たものである。
提案した暗黙的セマンティックデータ拡張(ISDA)アルゴリズムは,新たなロバストCE損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-07-21T00:32:44Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。