論文の概要: Dictionary-based Data Augmentation for Cross-Domain Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2004.02577v1
- Date: Mon, 6 Apr 2020 11:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:36:46.644302
- Title: Dictionary-based Data Augmentation for Cross-Domain Neural Machine
Translation
- Title(参考訳): クロスドメインニューラルマシン翻訳のための辞書に基づくデータ拡張
- Authors: Wei Peng, Chongxuan Huang, Tianhao Li, Yun Chen, and Qun Liu
- Abstract要約: ニューラルマシン翻訳(NMT)のための既存のデータ拡張アプローチは、主にバック翻訳インドメイン(IND)モノリンガルコーパスに依存している。
本稿では,ドメイン間NMTのための辞書ベースデータ拡張(DDA)手法を提案する。
- 参考スコア(独自算出の注目度): 16.49560848274186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing data augmentation approaches for neural machine translation (NMT)
have predominantly relied on back-translating in-domain (IND) monolingual
corpora. These methods suffer from issues associated with a domain information
gap, which leads to translation errors for low frequency and out-of-vocabulary
terminology. This paper proposes a dictionary-based data augmentation (DDA)
method for cross-domain NMT. DDA synthesizes a domain-specific dictionary with
general domain corpora to automatically generate a large-scale pseudo-IND
parallel corpus. The generated pseudo-IND data can be used to enhance a general
domain trained baseline. The experiments show that the DDA-enhanced NMT models
demonstrate consistent significant improvements, outperforming the baseline
models by 3.75-11.53 BLEU. The proposed method is also able to further improve
the performance of the back-translation based and IND-finetuned NMT models. The
improvement is associated with the enhanced domain coverage produced by DDA.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)のための既存のデータ拡張アプローチは、主にind(back-translating in-domain)単言語コーパスに依存している。
これらの手法はドメイン情報ギャップに関連する問題に悩まされ、低頻度および語彙外用語の翻訳誤りを引き起こす。
本稿では,ドメイン間NMTのための辞書ベースデータ拡張(DDA)手法を提案する。
DDAはドメイン固有の辞書を一般的なドメインコーパスで合成し、大規模な擬似IND並列コーパスを自動的に生成する。
生成された擬似INDデータは、一般的なドメインで訓練されたベースラインを強化するために使用できる。
実験の結果、DDAで強化されたNMTモデルは、ベースラインモデルよりも3.75-11.53 BLEUを上回り、一貫した顕著な改善を示した。
また, 提案手法により, バックトランスレーションモデルとIND微細化NMTモデルの性能をさらに向上させることができる。
この改善は、ddaによって生成されたドメインカバレッジの強化に関連している。
関連論文リスト
- Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Domain Adaptation and Multi-Domain Adaptation for Neural Machine
Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。
特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。
我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文 参考訳(メタデータ) (2021-04-14T16:21:37Z) - Multi-Domain Adaptation in Neural Machine Translation Through
Multidimensional Tagging [1.433758865948252]
文レベルの情報をモデルに渡すためのシンプルで効果的な方法である多次元タグ付け (MDT) を記述および実証的に評価する。
ヒトとBLEUの評価結果は,MDTが多領域適応の問題に適用可能であり,構成ドメインの翻訳品質を犠牲にすることなく,トレーニングコストを大幅に削減できることを示している。
論文 参考訳(メタデータ) (2021-02-19T21:19:42Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。