論文の概要: Generalised Unsupervised Domain Adaptation of Neural Machine Translation
with Cross-Lingual Data Selection
- arxiv url: http://arxiv.org/abs/2109.04292v1
- Date: Thu, 9 Sep 2021 14:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:18:25.130765
- Title: Generalised Unsupervised Domain Adaptation of Neural Machine Translation
with Cross-Lingual Data Selection
- Title(参考訳): 言語間データ選択によるニューラルネットワーク翻訳の一般教師なしドメイン適応
- Authors: Thuy-Trang Vu, Xuanli He, Dinh Phung and Gholamreza Haffari
- Abstract要約: そこで本研究では,多言語単一言語コーパスから,欠落言語側のドメイン内文を抽出する言語間データ選択手法を提案する。
提案手法は,多言語BERT上の適応層を比較学習により学習し,ソースとターゲット言語間の表現を整合させる。
我々は,NMTにおける言語間データ選択手法を,3つの言語ペアで5つのドメインにまたがって評価した。
- 参考スコア(独自算出の注目度): 34.90952499734384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the unsupervised domain adaptation problem for neural
machine translation (NMT), where we assume the access to only monolingual text
in either the source or target language in the new domain. We propose a
cross-lingual data selection method to extract in-domain sentences in the
missing language side from a large generic monolingual corpus. Our proposed
method trains an adaptive layer on top of multilingual BERT by contrastive
learning to align the representation between the source and target language.
This then enables the transferability of the domain classifier between the
languages in a zero-shot manner. Once the in-domain data is detected by the
classifier, the NMT model is then adapted to the new domain by jointly learning
translation and domain discrimination tasks. We evaluate our cross-lingual data
selection method on NMT across five diverse domains in three language pairs, as
well as a real-world scenario of translation for COVID-19. The results show
that our proposed method outperforms other selection baselines up to +1.5 BLEU
score.
- Abstract(参考訳): 本稿では,ニューラルネットワーク翻訳(NMT)における教師なし領域適応問題について考察する。
そこで本研究では,大規模な一言語コーパスから欠落言語側で文を抽出する言語間データ選択手法を提案する。
提案手法は,多言語BERT上の適応層を比較学習により学習し,ソースとターゲット言語間の表現を整合させる。
これにより、ゼロショット方式で言語間のドメイン分類器の転送が可能となる。
ドメイン内データが分類器によって検出されると、NMTモデルは翻訳タスクとドメイン識別タスクを併用して新しいドメインに適合する。
3つの言語ペアの異なる5つのドメインにまたがるnmtの言語間データ選択手法と,covid-19の現実世界の翻訳シナリオを評価した。
その結果,提案手法は,+1.5 BLEUスコアまでの他の選択基準よりも優れていた。
関連論文リスト
- $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。