論文の概要: Syntax-aware Data Augmentation for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.14200v1
- Date: Wed, 29 Apr 2020 13:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:42:14.364744
- Title: Syntax-aware Data Augmentation for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための構文認識データ拡張
- Authors: Sufeng Duan, Hai Zhao, Dongdong Zhang, Rui Wang
- Abstract要約: 本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 76.99198797021454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is an effective performance enhancement in neural machine
translation (NMT) by generating additional bilingual data. In this paper, we
propose a novel data augmentation enhancement strategy for neural machine
translation. Different from existing data augmentation methods which simply
choose words with the same probability across different sentences for
modification, we set sentence-specific probability for word selection by
considering their roles in sentence. We use dependency parse tree of input
sentence as an effective clue to determine selecting probability for every
words in each sentence. Our proposed method is evaluated on WMT14
English-to-German dataset and IWSLT14 German-to-English dataset. The result of
extensive experiments show our proposed syntax-aware data augmentation method
may effectively boost existing sentence-independent methods for significant
translation performance improvement.
- Abstract(参考訳): データ拡張は、追加のバイリンガルデータを生成することにより、ニューラルネットワーク翻訳(NMT)における効果的なパフォーマンス向上である。
本稿では,ニューラルマシン翻訳のための新しいデータ拡張強化戦略を提案する。
修正のために異なる文間で同じ確率で単語を選択する既存のデータ拡張法とは異なり、文中の単語の役割を考慮し、単語選択のための文固有の確率を設定する。
各文中の各単語の選択確率を決定するための効果的な手がかりとして,入力文の係り受け解析木を用いる。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
大規模な実験の結果,提案手法は既存の文非依存の手法を効果的に強化し,翻訳性能を大幅に向上させる可能性が示唆された。
関連論文リスト
- Deterministic Reversible Data Augmentation for Neural Machine Translation [36.10695293724949]
本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的なデータ拡張法であるDRDA(Deterministic Reversible Data Augmentation)を提案する。
余分なコーパスやモデルの変更は必要ないため、DRDAはいくつかの翻訳タスクにおいて、明確なマージンで強いベースラインを上回ります。
DRDAはノイズ、低リソース、クロスドメインデータセットにおいて優れた堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-04T17:39:23Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。