論文の概要: Deterministic Reversible Data Augmentation for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2406.02517v1
- Date: Tue, 4 Jun 2024 17:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:00:23.985549
- Title: Deterministic Reversible Data Augmentation for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための決定論的可逆データ拡張
- Authors: Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo,
- Abstract要約: 本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的なデータ拡張法であるDRDA(Deterministic Reversible Data Augmentation)を提案する。
余分なコーパスやモデルの変更は必要ないため、DRDAはいくつかの翻訳タスクにおいて、明確なマージンで強いベースラインを上回ります。
DRDAはノイズ、低リソース、クロスドメインデータセットにおいて優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 36.10695293724949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is an effective way to diversify corpora in machine translation, but previous methods may introduce semantic inconsistency between original and augmented data because of irreversible operations and random subword sampling procedures. To generate both symbolically diverse and semantically consistent augmentation data, we propose Deterministic Reversible Data Augmentation (DRDA), a simple but effective data augmentation method for neural machine translation. DRDA adopts deterministic segmentations and reversible operations to generate multi-granularity subword representations and pulls them closer together with multi-view techniques. With no extra corpora or model changes required, DRDA outperforms strong baselines on several translation tasks with a clear margin (up to 4.3 BLEU gain over Transformer) and exhibits good robustness in noisy, low-resource, and cross-domain datasets.
- Abstract(参考訳): データ拡張は、機械翻訳におけるコーパスの多様化に有効な方法であるが、従来手法では、不可逆操作とランダムサブワードサンプリング手順により、元のデータと拡張データのセマンティック不整合を導入することがある。
本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的なデータ拡張法である決定論的可逆データ拡張(DRDA)を提案する。
DRDAは、決定論的セグメンテーションと可逆操作を採用して、多粒度サブワード表現を生成し、それらをマルチビュー技術と組み合わせる。
余分なコーパスやモデルの変更は必要とせず、DRDAはいくつかの翻訳タスクにおいて、明確なマージン(Transformerよりも4.3BLEUのゲイン)で強いベースラインを上回り、ノイズ、低リソース、クロスデータセットデータセットにおいて優れた堅牢性を示す。
関連論文リスト
- Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Semantically Consistent Data Augmentation for Neural Machine Translation
via Conditional Masked Language Model [5.756426081817803]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張手法を提案する。
本手法は条件付きマスケプド言語モデル(CMLM)に基づく。
CMLMは置換時にソースとターゲットの両方に条件付けすることで意味的整合性を高めることができることを示す。
論文 参考訳(メタデータ) (2022-09-22T09:19:08Z) - A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A
Transformer-based Approach [0.0]
我々は,従来の技術とトランスフォーマー技術の両方を用いて,米国特許法とPhrase Matchingデータセットのセマンティック類似性解析とモデリングを行う。
実験の結果,従来の手法と比較して手法の性能が向上し,平均ピアソン相関スコアは0.79。
論文 参考訳(メタデータ) (2022-07-24T11:06:56Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Rethinking Data Augmentation for Low-Resource Neural Machine
Translation: A Multi-Task Learning Approach [0.0]
データ拡張(DA)技術は、利用可能な並列データが不足している場合に、追加のトレーニングサンプルを生成するために使用することができる。
変換を伴う新しい文対を生成するマルチタスクDA手法を提案する。
本研究では,経験的データ配信のサポート拡大を目的とした,ベースラインとDAメソッドの相反する改善点を示す。
論文 参考訳(メタデータ) (2021-09-08T13:39:30Z) - Uncertainty-Aware Semantic Augmentation for Neural Machine Translation [37.555675157198145]
本稿では,複数の意味的に等価なソース文間の普遍的な意味情報を明示的にキャプチャする不確実性を考慮した意味拡張を提案する。
我々のアプローチは、強いベースラインと既存の手法を大きく上回る。
論文 参考訳(メタデータ) (2020-10-09T07:48:09Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。